Τίτλος Exploratory analysis, model selection and checking of structural assumptions in football data
Εναλλακτικός τίτλος Διερευνητική ανάλυση, επιλογή μοντέλου και έλεγχος υποθέσεων σε δεδομένα ποδοσφαίρου
Δημιουργός Φλάκας, Ιωάννης Α., Flakas, Ioannis A.
Συντελεστής Karlis, Dimitris
Athens University of Economics and Business, Department of Statistics
Περίληψη Betting on the results of athletic competitions is very popular all over the world. Among sports, betting takes place mostly on football (soccer) and this is the reason for the vast application of statistical methodologies for the prediction of the outcome of a football game, like the number of goals scored by a team and several other characteristics of the game.In this thesis, we deal with the number of goals scored by a team. Our main aim is the evaluation of various models and the assessment of their predictive value. Research in soccer statistics has shown that the Poisson distribution can be used as the distribution of the number of goals scored by a team. So, we start by examining if the Poisson distribution is an appropriate for modeling such data. We base our conclusions on hypothesis testing making use of the index of dispersion, of the χ 2 test and a test proposed by Bohning (1994). We use data from 5 championships of different countries for 6 football seasons. Firstly, we investigate which variables should be included in our model in terms of statistical significance. We continue examining the independence between the goals scored by two opponents in a single match.For our purposes we use the Pearson chi-squared statistic and the Spearman’s and the Kendall’s correlation coefficients.Then we pursue a model comparison and by using AIC (Akaike, 1973)and BIC (Schwarz, 1978) we decide which of the bivariate Poisson models(Kocherlakota and Kocherlacota, 1992) fits best to our data. According to the selected model for each championship and for each season, we use the estimated parameters to generate replications of leagues. Each replication contains the same number of games with the corresponding league. For each league we generate 4,000 replications, and we calculate the average of the total team points and of the total number of goals scored and conceded by a team. These averages are used to check the agreement between the fitted distributions and the process that generated the actual data for each league,under the assumption that the model that is used is a sufficient summary of reality and the teams have the same performance as in observed league.At the end we examine the differences, in terms of fit, between the double Poisson model (two independent Poisson distributions) and the corresponding bivariate Poisson model.
Το στοίχημα στα αποτελέσματα αθλητικών διοργανώσεων είναι διαδεδομένο σε όλο τον κόσμο. Ανάμεσα στα αθλήματα, τα περισσότερα στοιχήματα γίνονται στο ποδόσφαιρο και αυτός είναι ο κύριος λόγος που η εφαρμογή στατιστικών μεθόδων έχει λάβει τεράστιες διαστάσεις όσων αφορά την πρόβλεψη του αποτελέσματος ενός αγώνα ποδοσφαίρου, του αριθμού των τερμάτων και πολλών άλλων χαρακτηριστικών του αγώνα. Στην παρούσα διατριβή, ασχολούμαστε με τον αριθμό των τερμάτων που πετυχαίνει μία ομάδα. Ο κύριος στόχος μας είναι η αξιολόγηση διαφόρων μοντέλων και η αποτίμηση της προγνωστικής τους αξίας. Η στατιστική έρευνα στο ποδόσφαιρο έχει καταλήξει στο ότι η κατανομή Poisson μπορεί εύλογα να χρησιμοποιηθεί ως η κατανομή του αριθμού των τερμάτων που πετυχαίνει μία ομάδα. Έτσι, πρώτο μας μέλημα είναι να εξετάσουμε αν η κατανομή Poisson είναι ένα κατάλληλο μοντέλο για τα διαθέσιμα δεδομένα.Τα συμπεράσματά μας βασίζονται σε ελέγχους υποθέσεων, χρησιμοποιώνταςτο δείκτη διασποράς, τον έλεγχο χ 2 και σε ένα έλεγχο που προτάθηκε από τον Bohning (1994). Χρησιμοποιούμε δεδομένα από 5 πρωταθλήματα διαφορετικών χωρών για 6 ποδοσφαιρικές περιόδους. Αρχικά, αναζητούμε ποιες μεταβλητές θα πρέπει να συμπεριληφθούν στο μοντέλο βάση της στατιστικής τους σημαντικότητας. Συνεχίζουμε ελέγχοντας την υπόθεση της ανεξαρτησίας ανάμεσα στα τέρματα που πετυχαίνουν οι δύο αντίπαλοι σε έναν ποδοσφαιρικό αγώνα. Προς αυτή Iτην κατεύθυνση χρησιμοποιούμε το χ 2 στατιστικό του Pearson και τους συντελεστές συσχέτισης του Spearman και του Kendall. Έπειτα διεξάγουμε συγκρίσεις μοντέλων και με τη χρήση των AIC(Akaike, 1973) και BIC (Schwarz, 1978) καταλήγουμε στο ποιο διμεταβλητό μοντέλο Poisson (Kocherlakota and Kocherlacota, 1992) προσαρμόζει καλύτερα στα δεδομένα μας. Βασισμένοι στο μοντέλο που καταλήξαμε για κάθε πρωτάθλημα και για κάθε ποδοσφαιρική περίοδο, χρησιμοποιούμε τις τιμές των εκτιμώμενων παραμέτρων για να προσομοιώσουμε επαναλήψεις των ποδοσφαιρικών περιόδων. Κάθε επανάληψη περιέχει τον ίδιο αριθμό παιχνιδιών με την αντίστοιχη ποδοσφαιρική περίοδο. Για κάθε ποδοσφαιρική περίοδο προσομοιώνουμε 4000 επαναλήψεις, και υπολογίζουμε το μέσο των συνολικών βαθμών της ομάδας και το μέσο αριθμό τερμάτων που πέτυχε και δέχτηκε κάθε ομάδα. Αυτοί οι μέσοι χρησιμοποιούνται για να ελέγξουμε το πόσο συμφωνούν τα μοντέλα στα οποία καταλήξαμε με την διαδικασία η οποία παρήγαγε τα πραγματικά δεδομένα για κάθε ποδοσφαιρική περίοδο, δεδομένης της υπόθεσης ότι το μοντέλο το οποίο χρησιμοποιούμε είναι μία επαρκής περιγραφή της πραγματικότητας και της υπόθεσης ότι οι ομάδες έχουν την ίδια απόδοση με αυτή που παρατηρήθηκε στην ποδοσφαιρική περίοδο. Στο τέλος, εξετάζουμε ποιες είναι οι διαφορές, με βάση το προσαρμοσμένο μοντέλο, μεταξύ της χρήσης διπλού Poisson μοντέλου (δύο ανεξάρτητων Poisson κατανομών) και της χρήσης του αντίστοιχου διμεταβλητού Poisson μοντέλου.
Λέξη κλειδί Exploratory analysis
Soccer statistics
Poisson model
Ημερομηνία 29-02-2008