Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο


Συλλογές	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Στατιστικής / Department of Statistics Μεταπτυχιακές Εργασίες / Postgraduate dissertations
Τίτλος	Distance-based methods for clustering mixed type data: a review and comparison study with Gower’s coefficient
Εναλλακτικός τίτλος	Μέθοδοι με βάση την αποστάση για συσταδοποίηση δεδομένων μικτού τύπου: μια μελέτη ανασκόπησης και σύγκρισης με το συντελεστή Gower
Δημιουργός	Hobbs-Ismeris, Alexia-Elizabeth
Συντελεστής	Athens University of Economics and Business, Department of Statistics Pedeli, Xanthi Karlis, Dimitrios Papageorgiou, Ioulia
Τύπος	Text
Φυσική περιγραφή	91p.
Γλώσσα	en
Αναγνωριστικό	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9938
Περίληψη	Clustering is a popular approach in data mining applications for discovering, managing, analysing, and extracting critical information from large volumes of data. Clustering algorithms strive to discover homogeneous groups of objects based on attribute values. The majority of clustering algorithms are suitable to either solely numerical or solely categorical data, but not both. However, datasets with mixed data types are common in real life applications and such datasets have been gathered in many fields. In the case of mixed-type variables, one main approach is cluster analysis based on similarity measures. Therefore, creating appropriate similarity measures is a critical step in clustering these datasets. This thesis focuses on similarity measures for mixed data which can be applied in hierarchical cluster analysis, with its main topic being the Gower’s similarity measure. Several modifications of the Gower similarity coefficient are examined as well as various additional similarity measures. A simulation study is conducted to assess the performance of the different measures on mixed data while using hierarchical clustering under varying conditions. All the examined similarity measures are compared regarding the quality of the produced clusters by using the Rand index, and therefore assumptions concerning the efficiency of each measure are formulated under different circumstances. Η συσταδοποίηση αποτελεί μια δημοφιλής προσέγγιση σε εφαρμογές εξόρυξης δεδομένων από μεγάλους όγκους δεδομένων για την ανακάλυψη, διαχείριση, ανάλυση και εξαγωγή χρήσιμων πληροφοριών. Οι αλγόριθμοι συσταδοποίησης προσπαθούν να ανακαλύψουν ομοιογενείς ομάδες αντικειμένων με βάση τις τιμές των μεταβλητών. Η πλειοψηφία των αλγορίθμων συσταδοποίησης είναι κατάλληλοι είτε για αριθμητικά είτε για κατηγορικά δεδομένα, αλλά όχι για το συνδυασμό και των δύο. Τα δεδομένα που συναντώνται συνήθως στην καθημερινότητα, αποτελούνται ωστόσο απο μεικτούς τύπους δεδομένων. Μία απο τις κύριες προσεγγίσεις για τη συσταδοποίηση μεικτών δεδομένων βασίζεται στη χρήση μέτρων ομοιότητας. Επομένως, η δημιουργία κατάλληλων μέτρων ομοιότητας είναι ένα κρίσιμο βήμα για τη συσταδοποίηση αυτών των συνόλων δεδομένων. Η παρούσα διπλωματική εργασία εστιάζει σε μέτρα ομοιότητας για μεικτά δεδομένα που μπορούν να χρησιμοποιηθούν στην ιεραρχική μέθοδο συσταδοποίησης, με κύριο αντικείμενο μελέτης το μέτρο ομοιότητας του Gower. Συγκεκριμένα, εξετάζονται κάποιες τροποποιήσεις του συντελεστή Gower καθώς και πρόσθετα μέτρα ομοιότητας. Επιπρόσθετα, διεξάγεται μια μελέτη προσομοίωσης για την αξιολόγηση της απόδοσης των διαφορετικών μέτρων σε μεικτά δεδομένα, υπό διαφορετικές συνθήκες. Όλα τα εξεταζόμενα μέτρα ομοιότητας συγκρίνονται ως προς την ποιότητα των παραγόμενων συστάδων με τη χρήση του δείκτη Rand, και συνεπώς εξάγονται συμπεράσματα για την αποτελεσματικότητα των μέτρων ύπο διαφορετικές συνθήκες.
Λέξη κλειδί	Τροποποιήσεις του συντελεστή Gower Συσταδοποίηση Δεδομένα μικτού τύπου Μέτρο ομοιότητας του Gower Μέτρα ομοιότητας Clustering Mixed data Gower’s coefficient Modifications of the Gower similarity coefficient Similarity measures
Διαθέσιμο από	2022-11-30 16:21:15
Ημερομηνία έκδοσης	24-10-2022
Ημερομηνία κατάθεσης	2022-11-30 16:21:15
Δικαιώματα χρήσης	Free access
Άδεια χρήσης	https://creativecommons.org/licenses/by/4.0/