Adjusted rand index in soft clustering
Ημερομηνία
2025-03-31
Συγγραφείς
Kalatzis, Viktor
Καλατζής, Βίκτωρ
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέπων
Διαθέσιμο από
Περίληψη
Η αξιολόγηση της ποιότητας της ομαδοποίησης είναι αναμφισβήτητα σημαντική για τη μάθηση χωρίς επίβλεψη, ιδίως όταν πρόκειται για τη διεξοδική διαχείριση των μεθόδων ομαδοποίησης soft clustering. Ο προσαρμοσμένος δείκτης Rand (ARI) και πρόσθετα συνήθη μέτρα είναι αποτελεσματικά για όλες τις σκληρές ομαδοποιήσεις. Αυτά τα μέτρα δεν λαμβάνουν υπόψη τους τις συμμετοχές που βασίζονται σε πιθανότητες. Ως επέκταση του ARI, η παρούσα διατριβή εισάγει μια εκδοχή του ARI, το Soft Adjusted Rand Index (sARI) για τη διαχείριση των soft partitions. Εξετάζονται και συγκρίνονται τρεις εκδόσεις του sARI με τη χρήση κατασκευασμένων συνόλων δεδομένων που παρουσιάζουν πολλαπλά σχήματα συστάδων και ποσά επικάλυψης. Με βάση τα ευρήματά μας, ο τύπος 1 του sARI φαίνεται να ταιριάζει περισσότερο με τον ARI, ενώ παράλληλα αλλάζει σε πλήρη αβεβαιότητα ομαδοποίησης soft. Αυτή η εργασία δίνει ιδέες για το πώς να βελτιωθούν οι μέθοδοι επικύρωσης της συσταδοποίησης για πιθανοτικά μοντέλα.Evaluating clustering quality is undeniably important for unsupervised learning, especially when thoroughly managing soft clustering methods. The Adjusted Rand Index (ARI) and additional customary measures are effective for all hard clustering. These measures do not account for any probabilistic memberships. As an extension of ARI, this thesis introduces one version of the Soft Adjusted Rand Index (sARI) to handle soft partitions. Three versions of sARI are examined and compared with the use of constructed datasets showing multiple cluster shapes and overlap amounts. Based on our findings, sARI Type 1 seems to align fully with ARI, all the while changing to complete soft clustering uncertainty. This work gives ideas about how to improve clustering validation methods for probabilistic models.
Περιγραφή
Λέξεις-κλειδιά
Soft clustering, Adjusted Rand index, Soft adjusted Rand index, Gaussian mixture models, Clustering evaluation, Μαλακή ομαδοποίηση, Προσαρμοσμένος δείκτης Rand, Μαλακός προσαρμοσμένος δείκτης Rand, Μικτά μοντέλα Gaussian, Αξιολόγηση ομαδοποίησης