Abstract : | Χαμένη πελατεία ορίζεται συνήθως η πιθανότητα ένας πελάτης να διακόψει εθελοντικά ένα υπάρχον/ουσα συμβόλαιο-σύμβαση μέσα στους επόμενους Χ μήνες, όπου ο αριθμός Χ καθορίζεται σύμφωνα με τον τύπο της επιχείρησης και το είδος του προβλήματος πιο συγκεκριμένα. Αναφέρεται επίσης και ως απώλεια πελατών. (Forecast Analytics,2015). Η πελατεία που εγκαταλείπει μία επιχείρηση είναι μία από τις πιο σημαντικές μετρικές για μία αναπτυσσόμενη επιχείρηση έτσι ώστε να αξιολογήσει την ικανοποίηση των πελατών της και παρά το γεγονός ότι δεν είναι το πιο ευχάριστο μέτρο, είναι ένας αριθμός ο οποίος μπορεί να αποκαλύψει στην εταιρεία τη σκληρή αλήθεια για τη διατήρηση των πελατών της. Όσο πιο μεγάλος είναι ο αριθμός με τον οποίο εγκαταλείπουν οι πελάτες μία επιχείρηση, τόσο πιο πολλοί επενδυτές αμφιβάλλουν για τη βιωσιμότητα της εταιρείας. Από τη σκοπιά των αναλυτών δεδομένων, αυτό είναι ένα κλασικό δυαδικό πρόβλημα ταξινόμησης, αφού όλοι οι πελάτες ή θα συνεχίσουν να παραμένουν στην εταιρεία ή θα την εγκαταλείψουν. Υπάρχουν διαφορετικές προσεγγίσεις για να μελετήσουμε το ποσοστό των πελατών που φεύγουν από μία επιχείρηση μέσω κατάλληλων μοντέλων πρόβλεψης, όμως σε πολλές περιπτώσεις όπου δεν έχουμε πληροφορίες για πραγματικούς υπαρκτούς ανθρώπους που έχουν ήδη εγκαταλείψει την εταιρεία, η "χαμένη πελατεία" είναι δύσκολο να ανιχνευτεί. Έτσι λοιπόν, το να χτιστεί ένα κατάλληλο μοντέλο είναι μία διαδικασία με υψηλή περιπλοκότητα. Στην έρευνά μας, είχαμε να αντιμετωπίσουμε αυτή την περίπτωση, έτσι λοιπόν αναπτύξαμε μία προσέγγιση δύο βημάτων η οποία αποτελείτο από γκρουπάρισμα(clustering) και ταξινόμηση(classification). Με αυτό τον τρόπο, αρχικά υλοποιήθηκε καταμερισμός των πελατών πάνω στην πελατειακή βάση της τράπεζας. Οι πελάτες μέσω του Κ-Means διαιρέθηκαν και αναπαραστάθηκαν σε τρεις ομάδες με βάση χαρακτηριστικά που σχετίζονται με την RFD ανάλυση με σκοπό να γίνει εξαγωγή ενός λογικού ορισμού για τη χαμένη πελατεία και να αποδοθούν "ετικέτες" (φεύγει/παραμένει) στους πελάτες. Στη συνέχεια, στηριζόμενοι στις παραπάνω ετικέτες, προχωρήσαμε στο επόμενο βήμα - τη διαδικασία χτισίματος του μοντέλου. Οι αλγόριθμοι που χρησιμοποιήθηκαν ήταν ο logistic regression και ο Naive Bayes ταξινομητής. Όσον αφορά τα αποτελέσματα, ο logistic regression είχε καλύτερη απόδοση πάνω στα δεδομένα μας από ό,τι ο Naive Bayes. Customer churn is commonly defined as ‘the probability that a customer will voluntary cancel the existing contract within the next X number of months’, where X is defined according to the type of business and the problem set in particular. It is also referred as loss of clients or customers. (Forecast Analytics, 2015). Customer churn is one of the most important metrics for a growing business to evaluate its customers’ satisfaction and while it's not the happiest measure, it is a number that can give a company the hard truth about its customer retention. The higher the churn rate, the more many investors doubt the company’s viability. From an analytics perspective, this becomes a classic binary classification problem as all customers either churned – or did not churn. There are different approaches to study customer churn via suitable predictive models but in many cases, when there are non-existent churners, the customer churn is not traceable. So, building an appropriate model is a procedure with high complexity. In our study, we had to deal with this issue, so we developed a dual step building approach which consisted of clustering task and then the classification task. With this regard, firstly, customer segmentation was implemented on the bank’s client base. The clients through K-means, were divided and depicted into three clusters based on their RFD related features with the aim of extracting a logical definition of churn and administering flags (churn- no churn) to the clients. Secondly, based on the above flags we proceeded to the second step – the model building phase. The utilized algorithms were the logistic regression and the Naïve Bayes classifier. Regarding the results, logistic regression had better performance on our data than Naïve Bayes.
|
---|