PYXIDA Institutional Repository
and Digital Library
 Home
Collections :

Title :Classification and prediction of clickstream data
Alternative Title :Ταξινόμηση και πρόβλεψη από δεδομένα περιήγησης
Creator :Μανδραβίλλης, Νικόλαος
Mandravillis, Nikolaos
Contributor :Καρλής, Δημήτριος (Επιβλέπων καθηγητής)
Βασδέκης, Βασίλειος (Εξεταστής)
Πεντελή, Ξανθή (Εξεταστής)
Athens University of Economics and Business, Department of Statistics (Degree granting institution)
Type :Text
Notes :Η εργασία περιέχει παράρτημα και βιβλιογραφικές αναφορές
Extent :97p.
Language :en
Identifier :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7354
Abstract :Web log data have been used for analysis from the late 90s with the upsurge of the Internet and the Websites containing different categories that a user can click, and consequently generating a path on the website called clickstream data.With the vast increase of the usage of e-shops that can generate a much larger profit than smallshops, there is an increase in the interest of being able to predict real-time if a user is likely searching for a purchase (in order for the agents to propose him/her something appealing to send them in the right direction) or if a user is likely to defer (in order not to spend much effort and resources trying to pursue them).Using Higher-order Markov chain modeling (used in Random Clicks method and Bayes Factor method) as well as Probabilistic Suffix Trees (a case of Variable-length Markov chain models, which was predominantly used for Protein detection), we will explore the prediction for each individual session length, starting from the 2nd click of the user up to the 10th click. Moreover, we will use k-means clustering method in order to classify the sessions for the purpose of making a more visual association for which variables influence the conversion rate of the session. Since we want real-time prediction, using time for prediction is out of scope but is a valuable information nonetheless.For each of the three methods, we will also illustrate two examples (one session that ended in buy and the other in defer) in order to compare how well the models are fitted in each case. Due to the imbalance of the dataset (low conversion rate and dominant category over the others), the main metric that will be used in determining the forecasting ability is the average precision.
Τα δεδομένα καταγραφής ιστότοπου έχουν χρησιμοποιηθεί για ανάλυση από τα τέλη της δεκαετίας του '90 με την αύξηση της χρήσης του Διαδικτύου για ιστοσελίδες που περιέχουν διαφορετικές κατηγορίες που μπορεί να επιλέξει ένας χρήστης και, κατά συνέπεια, δημιουργώντας μια διαδρομή στον ιστότοπο που ονομάζονται δεδομένα clickstream.Με την εξάπλωση της χρήσης των ηλεκτρονικών καταστημάτων που μπορούν να αποφέρουν πολλά περισσότερα κέρδη από τα μικρά καταστήματα, υπάρχει αύξηση του ενδιαφέροντος να είναι δυνατή η πρόβλεψη σε πραγματικό χρόνο εάν κάποιος χρήστης πιθανώς ψάχνει για μια αγορά (προκειμένου οι πράκτορες να του προτείνουν κάτι ελκυστικό ώστε να τους στείλει προς τη σωστή κατεύθυνση) ή εάν ο χρήστης είναι πιθανό να αναβάλει.Χρησιμοποιώντας την μοντελοποίηση Αλυσίδας Μάρκοφ ανώτερης τάξης (που χρησιμοποιείται στη μέθοδο Random Clicks και τη μέθοδο Bayes Factor) καθώς και Probabilistic Suffix Trees (περίπτωση μοντέλων Αλυσίδας Μάρκοφ μεταβλητού μήκους, τα οποία χρησιμοποιήθηκαν κυρίως για ανίχνευση πρωτεϊνών), θα διερευνήσουμε την πρόβλεψη για κάθε μεμονωμένο μήκος συνεδρίας, ξεκινώντας από το 2ο κλικ του χρήστη έως το 10o κλικ. Επιπλέον, θα χρησιμοποιήσουμε τη μέθοδο ομαδοποίησης k-means για να ταξινομήσουμε τις συνεδρίες με σκοπό να κάνουμε μια πιο οπτική συσχέτιση για την οποία οι μεταβλητές επηρεάζουν τον ρυθμό μετατροπής σε αγορά κατά την περιόδου συνεδρίας. Δεδομένου ότι θέλουμε την πρόβλεψη σε πραγματικό χρόνο, η χρήση του χρόνου για την πρόβλεψη είναι εκτός πεδίου εφαρμογής, αλλά αποτελεί πάντοτε πολύτιμη πληροφορία.Για καθεμία από τις τρεις μεθόδους, θα παρουσιάσουμε επίσης δύο παραδείγματα (μία συνεδρία που τελείωσε στην αγορά και η άλλη αναβλήθηκε), προκειμένου να συγκριθεί πόσο καλά προσαρμόζονται τα μοντέλα σε κάθε περίπτωση. Λόγω της ανισορροπίας του συνόλου δεδομένων (χαμηλός ρυθμός μετατροπής σε αγορά και κυρίαρχη μια κατηγορία έναντι των άλλων), η κύρια μετρική που θα χρησιμοποιηθεί για τον προσδιορισμό της ικανότητας πρόβλεψης είναι η μέση ακρίβεια.
Subject :Δεδομένα περιήγησης
Πρόβλεψη κλικ
Αλυσίδα Μάρκοφ Ανωτέρας Τάξης
Κατηγορικά δεδομένα
Clickstream analysis
Click Prediction
Higher-Order Markov Chain Models
Probabilistic Suffix Trees
Categorical data
Kmeans clustering
Date Available :2019-09-21 17:33:48
Date Issued :09/13/2019
Date Submitted :2019-09-21 17:33:48
Access Rights :Free access
Licence :

File: Mandravillis_2019.pdf

Type: application/pdf