Abstract : | Η ομαδοποίηση σε δεδομένα μικτού τύπου λαμβάνει αυξανόμενη προσοχή τα τελευταία χρόνια, λόγω του ότι συνδυασμοί αριθμητικών και κατηγορικών δεδομένων συναντώνται συχνότερα στις περισσότερες επιχειρηματικές εφαρμογές σήμερα. Σκοπός της συγκεκριμένης εργασίας είναι η ανασκόπηση της σχετικής βιβλιογραφίας (Foss et al., 2016; Foss and Markatou, 2018; Szepannek, 2018; McParland and Gormley, 2016; Marbac et al., 2015) και η σύγκριση των αντίστοιχων τεχνικών ομαδοποίησης όσον αφορά την ακρίβεια αλλά και τον υπολογιστικό τους χρόνο, μέσω της χρήσης προσομοιωμένων σετ δεδομένων. Τα μέτρα ακρίβειας που χρησιμοποιήθηκαν είναι τα ARI (Adjusted Rand Index), RI (Rand Index), J (Jaccard Index) και FM (Fowlkes-Mallows Index). Για τον υπολογιστικό χρόνο έγινε χρήση της συνάρτησης microbenchmark στην R. Όταν το ποσοστό της επικάλυψης μεταξύ των πραγματικών ομάδων ήταν μικρό, τόσο στις συνεχείς όσο και στις κατηγορικές μεταβλητές, όλες οι μέθοδοι φάνηκε να παρουσιάζουν πολύ καλά αποτελέσματα και οι ομάδες εντοπίζονταν με ευκολία. Στην περίπτωση που το σετ δεδομένων αποτελούνταν από μικρότερο αριθμό μεταβλητών (δύο συνεχείς και δύο κατηγορικές), οι τεχνικές των KAMILA και clustMixType δεν απέδωσαν ικανοποιητικά όταν το ποσοστό των επικαλύψεων μεταξύ των πραγματικών ομάδων στις συνεχείς μεταβλητές ήταν υψηλό, αλλά δεν συνέβη το ίδιο όταν τα υψηλά ποσοστά επικαλύψεων στις πραγματικές ομάδες επηρέαζαν τις κατηγορικές μεταβλητές του σετ δεδομένων. Σε αυτές τις συνθήκες οι τεχνικές των clustMD και MixCluster φάνηκαν ανώτερες των KAMILA και clustMixType. Η επίδοση των clustMD και MixCluster παρουσιάστηκε κατώτερη όταν υπήρχε κάποιου βαθμού επικάλυψη και στις τέσσερις μεταβλητές του σετ δεδομένων, ενώ ταυτόχρονα στις δύο από αυτές, ανεξαρτήτως του τύπου τους, το ποσοστό αυτό ήταν υψηλό (70%). Όταν ο αριθμός των μεταβλητών στο σετ δεδομένων διπλασιάστηκε (από τέσσερις σε οκτώ- τέσσερις συνεχείς και τέσσερις κατηγορικές), όλες οι μέθοδοι απέδωσαν άριστα, ακόμα και στην συνθήκη όπου στις τρείς από τις τέσσερις συνεχείς και κατηγορικές μεταβλητές εφαρμόστηκε υψηλό ποσοστό επικάλυψης μεταξύ των πραγματικών ομάδων. Όσον αφορά τον υπολογιστικό χρόνο, οι τεχνικές στα clustMD και MixCluster φάνηκαν περισσότερο χρονοβόρες συγκριτικά με εκείνες των KAMILA και clustMixType. Τέλος, οι τεχνικές αυτές δοκιμάστηκαν και σε τρία πραγματικά σετ δεδομένων, προκειμένου να αξιολογήσουμε περαιτέρω τη συμπεριφορά τους. Clustering mixed type data has been receiving increasing attention in the last few years due to the fact that combinations of numeric and categorical data are more common in most business applications. In this thesis we review the related literature (Foss et al., 2016; Foss and Markatou, 2018; Szepannek, 2018; McParland and Gormley, 2016; Marbac et al., 2015) and compare the respective techniques in terms of accuracy and computing time by clustering simulated mixed type data. The accuracy measures used for the comparison were the ARI (Adjusted Rand Index), RI (Rand Index), J (Jaccard Index) and FM (Fowlkes-Mallows Index). For the computing time the function microbenchmark in R was used. When the overlap percentages between the true clusters were low in both continuous and categorical variables all algorithms seemed to perform quite well and the clusters were relatively easy to identify. In the case of small number of variables in the dataset (two continuous and two categorical), KAMILA and clustMixType performed poorly when high percentages of overlap in the continuous variables were present, but the same did not apply whenhigh percentages of overlap were present in the categorical variables. In these conditions, clustMD and MixCluster appeared superior to the other two methods. Their performance appeared to weaken when the clusters overlapped on some level in all four variables of the dataset, and for the half of them (either the continuous or the categorical), regardless of their type, this level was high enough (70%).When the number of variables in the dataset doubled (from four to eight – four continuous and four categorical) all four methods performed perfectly even in the situation when three out of four continuous and categorical variables had high percentages of overlap between the two true clusters. As far as the computing time is concerned the functions used in clustMD and MixCluster were way more time consuming when compared to kamila and kproto. At the end of the thesis, an implementation of all methods was conducted for three real data sets.
|
---|