Συλλογές
Τίτλος Distance-based methods for clustering mixed type data: a review and comparison study with Gower’s coefficient
Εναλλακτικός τίτλος Μέθοδοι με βάση την αποστάση για συσταδοποίηση δεδομένων μικτού τύπου: μια μελέτη ανασκόπησης και σύγκρισης με το συντελεστή Gower
Δημιουργός Hobbs-Ismeris, Alexia-Elizabeth
Συντελεστής Athens University of Economics and Business, Department of Statistics
Pedeli, Xanthi
Karlis, Dimitrios
Papageorgiou, Ioulia
Τύπος Text
Φυσική περιγραφή 91p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9938
Περίληψη Clustering is a popular approach in data mining applications for discovering, managing, analysing, and extracting critical information from large volumes of data. Clustering algorithms strive to discover homogeneous groups of objects based on attribute values. The majority of clustering algorithms are suitable to either solely numerical or solely categorical data, but not both. However, datasets with mixed data types are common in real life applications and such datasets have been gathered in many fields. In the case of mixed-type variables, one main approach is cluster analysis based on similarity measures. Therefore, creating appropriate similarity measures is a critical step in clustering these datasets. This thesis focuses on similarity measures for mixed data which can be applied in hierarchical cluster analysis, with its main topic being the Gower’s similarity measure. Several modifications of the Gower similarity coefficient are examined as well as various additional similarity measures. A simulation study is conducted to assess the performance of the different measures on mixed data while using hierarchical clustering under varying conditions. All the examined similarity measures are compared regarding the quality of the produced clusters by using the Rand index, and therefore assumptions concerning the efficiency of each measure are formulated under different circumstances.
Η συσταδοποίηση αποτελεί μια δημοφιλής προσέγγιση σε εφαρμογές εξόρυξης δεδομένων από μεγάλους όγκους δεδομένων για την ανακάλυψη, διαχείριση, ανάλυση και εξαγωγή χρήσιμων πληροφοριών. Οι αλγόριθμοι συσταδοποίησης προσπαθούν να ανακαλύψουν ομοιογενείς ομάδες αντικειμένων με βάση τις τιμές των μεταβλητών. Η πλειοψηφία των αλγορίθμων συσταδοποίησης είναι κατάλληλοι είτε για αριθμητικά είτε για κατηγορικά δεδομένα, αλλά όχι για το συνδυασμό και των δύο. Τα δεδομένα που συναντώνται συνήθως στην καθημερινότητα, αποτελούνται ωστόσο απο μεικτούς τύπους δεδομένων. Μία απο τις κύριες προσεγγίσεις για τη συσταδοποίηση μεικτών δεδομένων βασίζεται στη χρήση μέτρων ομοιότητας. Επομένως, η δημιουργία κατάλληλων μέτρων ομοιότητας είναι ένα κρίσιμο βήμα για τη συσταδοποίηση αυτών των συνόλων δεδομένων. Η παρούσα διπλωματική εργασία εστιάζει σε μέτρα ομοιότητας για μεικτά δεδομένα που μπορούν να χρησιμοποιηθούν στην ιεραρχική μέθοδο συσταδοποίησης, με κύριο αντικείμενο μελέτης το μέτρο ομοιότητας του Gower. Συγκεκριμένα, εξετάζονται κάποιες τροποποιήσεις του συντελεστή Gower καθώς και πρόσθετα μέτρα ομοιότητας. Επιπρόσθετα, διεξάγεται μια μελέτη προσομοίωσης για την αξιολόγηση της απόδοσης των διαφορετικών μέτρων σε μεικτά δεδομένα, υπό διαφορετικές συνθήκες. Όλα τα εξεταζόμενα μέτρα ομοιότητας συγκρίνονται ως προς την ποιότητα των παραγόμενων συστάδων με τη χρήση του δείκτη Rand, και συνεπώς εξάγονται συμπεράσματα για την αποτελεσματικότητα των μέτρων ύπο διαφορετικές συνθήκες.
Λέξη κλειδί Τροποποιήσεις του συντελεστή Gower
Συσταδοποίηση
Δεδομένα μικτού τύπου
Μέτρο ομοιότητας του Gower
Μέτρα ομοιότητας
Clustering
Mixed data
Gower’s coefficient
Modifications of the Gower similarity coefficient
Similarity measures
Διαθέσιμο από 2022-11-30 16:21:15
Ημερομηνία έκδοσης 24-10-2022
Ημερομηνία κατάθεσης 2022-11-30 16:21:15
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/