Modelling expected goals in football
Ημερομηνία
2025-07-16
Συγγραφείς
Αργυρόπουλος, Δημοσθένης
Argyropoulos, Dimosthenis
Τίτλος Εφημερίδας
Περιοδικό ISSN
Τίτλος τόμου
Εκδότης
Επιβλέποντα
Διαθέσιμο από
Περίληψη
Αυτή η μελέτη διερευνά πώς μπορούν να χρησιμοποιηθούν στατιστικά μοντέλα για την εκτίμηση της πιθανότητας να σημειωθεί ένα γκολ στο ποδόσφαιρο, χρησιμοποιώντας την έννοια των Αναμενόμενων Γκολ (xG). Βασισμένο σε δεδομένα από τη σεζόν 2015–2016 της Premier League (παρεχόμενα από τη StatsBomb), το έργο εξετάζει βασικούς παράγοντες όπως η απόσταση και η γωνία του σουτ, η θέση του παίκτη και η αμυντική πίεση. Μετά τον καθαρισμό των δεδομένων και την Εξερευνητική Ανάλυση Δεδομένων (EDA), αναπτύχθηκαν τέσσερα διαφορετικά μοντέλα λογιστικής παλινδρόμησης, συμπεριλαμβανομένου ενός πλήρους μοντέλου, δύο μοντέλων με χρήση των κριτηρίων AIC και BIC, καθώς και ενός μοντέλου με κανονικοποίηση LASSO, για την πρόβλεψη του αν ένα σουτ θα καταλήξει σε γκολ ή όχι. Κάθε μοντέλο αξιολογήθηκε με μετρικές όπως η ακρίβεια, η ακρίβεια θετικών προβλέψεων (precision), η ανάκληση, το F1-score και η ROC-AUC.Τα αποτελέσματα επιβεβαιώνουν ότι η στατιστική μοντελοποίηση μπορεί να εκτιμήσει με επιτυχία την πιθανότητα σκοραρίσματος βάσει μεταβλητών εντός αγώνα. Για την επαλήθευση της απόδοσης των αναπτυγμένων μοντέλων, οι προβλέψεις τους συγκρίθηκαν με τις επίσημες τιμές xG που παρείχε η StatsBomb, αναδεικνύοντας τόσο ομοιότητες όσο και διαφορές στις εκτιμήσεις, όπου παρατηρούμε ότι και τα τέσσερα μοντέλα παρουσιάζουν ισχυρή προβλεπτική ικανότητα σε σύγκριση με αυτήν τη στήλη.
Αυτά τα ευρήματα είναι χρήσιμα για προπονητές ποδοσφαίρου, αναλυτές απόδοσης και επαγγελματίες του στοιχήματος που βασίζονται σε αποφάσεις καθοδηγούμενες από δεδομένα. Συνολικά, το έργο αναδεικνύει τον αυξανόμενο ρόλο της ανάλυσης δεδομένων στο ποδόσφαιρο και δείχνει πώς η μοντελοποίηση xG μπορεί να υποστηρίξει τόσο την ανάπτυξη στρατηγικής όσο και την αξιολόγηση απόδοσης.This study explores how to use statistical models to estimate the chance of scoring a goal in football, using the concept of Expected Goals (xG). Based on detailed data from the 2015–2016 Premier League season (provided by StatsBomb), the project examines key factors like shot distance, angle, player position, and defensive pressure. After data cleaning and Exploratory Data Analysis (EDA), four different logistic regression models were developed including a full model, two models after using AIC and BIC criteria, and a LASSO-regularized model to predict if a shot would result in a goal or not. Each model was evaluated using metrics like accuracy, precision, recall, F1-score, and ROC-AUC. The results confirm that statistical modeling can successfully estimate scoring probability based on in-game variables. To validate the performance of the developed models, their predictions were compared to the official xG values provided by StatsBomb, highlighting both similarities and differences in estimation where we notice that the four models developed have strong predicting ability compared with this column. These findings are useful for football coaches, performance analysts, and betting professionals who rely on data-driven decisions. Overall, the project highlights the growing role of data analytics in football and shows how xG modeling can support both strategy development and performance evaluation.
Περιγραφή
Λέξεις-κλειδιά
Expected goals, Logistic reggression, Sports data, Αναμενόμενα γκολ, Λογιστική παλινδρόμηση, Αθλητικά δεδομένα