Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Στατιστικής / Department of Statistics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Cluster analysis on ranking data

Εναλλακτικός τίτλος :	Ανάλυση συστάδων σε δεδομένα ταξινόμησης

Δημιουργός :	Κωστούλας, Χρήστος Kostoulas, Christos

Συντελεστής :	Καρλής, Δημήτριος (Επιβλέπων καθηγητής) Ντζούφρας, Ιωάννης (Εξεταστής) Δεμίρης, Νικόλαος (Εξεταστής) Athens University of Economics and Business, Department of Statistics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	93p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7800

Περίληψη :	Η διατριβή αυτή έχει σκοπό να δείξει πως μπορούμε να κάνουμε ανάλυση συστάδων σε μεγάλο όγκο δεδομένων ταξινόμησης τα οποία ενδεχομένως να περιέχουν και ελλιπείς παρατηρήσεις. Πρώτα, εισάγουμε κάποιες βασικές έννοιες όπως η απόσταση και η συσχέτιση μεταξύ δύο σειρών κατάταξης (rankings) και έπειτα κάνουμε μία ανασκόπηση των πιθανοκρατικών μοντέλων που χρησιμεύουν στη μοντελοποίηση δεδομένων ταξινόμησης. Θα διερευνήσουμε επίσης και μοντέλα συσταδοποίησης. Εν συνεχεία θα εξεταστούν τρία στατιστικά πακέτα στην R με βάση τα οποία θα μπορέσουμε να πραγματοποιήσουμε συσταδοποίηση μεγάλου όγκου δεδομένων ταξινόμησης. Συγκεκριμένα, θα αναλύσουμε 2 πακέτα, ονόματι PLMIX και BayesMallows, τα οποίαμας προσφέρουν τη δυνατότητα να πραγματοποιήσουμε ανάλυση συστάδων χρησιμοποιώντας Μπεϋζιανές μεθόδους. Τέλος, δείχνουμε την ισχύ αυτών των πακέτων εφαρμόζοντάς τασε δεδομένα αξιολόγησης επαγγελμάτων, το οποίο περιλαμβάνει 8646 παρατηρήσεις και 17 παράγοντες προς αξιολόγηση. This thesis is about understanding how to perform cluster analysis in ranked data that come in big volumes and that might also include missing observations in them. At first, some basic notions, such as the distance and the correlation between two rankings, are discussed and then we review some probabilistic models that are useful for ranking data. Clustering models are being discussed as well. Afterwards, we present some statistical R packages that are able to perform cluster analysis on big volumes of ranked data. In particular, we will see that 2 packages, namely the PLMIX and the BayesMallows, offer us the ability to also perform cluster analysis within the Bayesian context. Finally, we display the power of these packages by applying them on a job ranking dataset that consists of 8646 observations and 17 factors to evaluate.

Περίληψη :

Η διατριβή αυτή έχει σκοπό να δείξει πως μπορούμε να κάνουμε ανάλυση συστάδων σε μεγάλο όγκο δεδομένων ταξινόμησης τα οποία ενδεχομένως να περιέχουν και ελλιπείς παρατηρήσεις. Πρώτα, εισάγουμε κάποιες βασικές έννοιες όπως η απόσταση και η συσχέτιση μεταξύ δύο σειρών κατάταξης (rankings) και έπειτα κάνουμε μία ανασκόπηση των πιθανοκρατικών μοντέλων που χρησιμεύουν στη μοντελοποίηση δεδομένων ταξινόμησης. Θα διερευνήσουμε επίσης και μοντέλα συσταδοποίησης. Εν συνεχεία θα εξεταστούν τρία στατιστικά πακέτα στην R με βάση τα οποία θα μπορέσουμε να πραγματοποιήσουμε συσταδοποίηση μεγάλου όγκου δεδομένων ταξινόμησης. Συγκεκριμένα, θα αναλύσουμε 2 πακέτα, ονόματι PLMIX και BayesMallows, τα οποίαμας προσφέρουν τη δυνατότητα να πραγματοποιήσουμε ανάλυση συστάδων χρησιμοποιώντας Μπεϋζιανές μεθόδους. Τέλος, δείχνουμε την ισχύ αυτών των πακέτων εφαρμόζοντάς τασε δεδομένα αξιολόγησης επαγγελμάτων, το οποίο περιλαμβάνει 8646 παρατηρήσεις και 17 παράγοντες προς αξιολόγηση.
This thesis is about understanding how to perform cluster analysis in ranked data that come in big volumes and that might also include missing observations in them. At first, some basic notions, such as the distance and the correlation between two rankings, are discussed and then we review some probabilistic models that are useful for ranking data. Clustering models are being discussed as well. Afterwards, we present some statistical R packages that are able to perform cluster analysis on big volumes of ranked data. In particular, we will see that 2 packages, namely the PLMIX and the BayesMallows, offer us the ability to also perform cluster analysis within the Bayesian context. Finally, we display the power of these packages by applying them on a job ranking dataset that consists of 8646 observations and 17 factors to evaluate.

Λέξη κλειδί :	Δεδομένα ταξινόμησης Ανάλυση συστάδων Μπεϋζιανές μέθοδοι Ranking data Cluster analysis Bayesian methods

Διαθέσιμο από :	2020-04-23 13:25:52

Ημερομηνία έκδοσης :	15-04-2020

Ημερομηνία κατάθεσης :	2020-04-23 13:25:52

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Kostoulas_2020.pdf

Τύπος: application/pdf

Είσοδος