Κοινότητες στην ΠΥΞΙΔΑ
Επιλέξτε μια κοινότητα για να περιηγηθείτε στις συλλογές της.
Πρόσφατες Υποβολές
Modelling expected goals in football
(2025-07-16) Αργυρόπουλος, Δημοσθένης; Argyropoulos, Dimosthenis; Ntzoufras, Ioannis; Chatziantoniou, Damianos; Karlis, Dimitrios
Αυτή η μελέτη διερευνά πώς μπορούν να χρησιμοποιηθούν στατιστικά μοντέλα για την εκτίμηση της πιθανότητας να σημειωθεί ένα γκολ στο ποδόσφαιρο, χρησιμοποιώντας την έννοια των Αναμενόμενων Γκολ (xG). Βασισμένο σε δεδομένα από τη σεζόν 2015–2016 της Premier League (παρεχόμενα από τη StatsBomb), το έργο εξετάζει βασικούς παράγοντες όπως η απόσταση και η γωνία του σουτ, η θέση του παίκτη και η αμυντική πίεση. Μετά τον καθαρισμό των δεδομένων και την Εξερευνητική Ανάλυση Δεδομένων (EDA), αναπτύχθηκαν τέσσερα διαφορετικά μοντέλα λογιστικής παλινδρόμησης, συμπεριλαμβανομένου ενός πλήρους μοντέλου, δύο μοντέλων με χρήση των κριτηρίων AIC και BIC, καθώς και ενός μοντέλου με κανονικοποίηση LASSO, για την πρόβλεψη του αν ένα σουτ θα καταλήξει σε γκολ ή όχι. Κάθε μοντέλο αξιολογήθηκε με μετρικές όπως η ακρίβεια, η ακρίβεια θετικών προβλέψεων (precision), η ανάκληση, το F1-score και η ROC-AUC.Τα αποτελέσματα επιβεβαιώνουν ότι η στατιστική μοντελοποίηση μπορεί να εκτιμήσει με επιτυχία την πιθανότητα σκοραρίσματος βάσει μεταβλητών εντός αγώνα. Για την επαλήθευση της απόδοσης των αναπτυγμένων μοντέλων, οι προβλέψεις τους συγκρίθηκαν με τις επίσημες τιμές xG που παρείχε η StatsBomb, αναδεικνύοντας τόσο ομοιότητες όσο και διαφορές στις εκτιμήσεις, όπου παρατηρούμε ότι και τα τέσσερα μοντέλα παρουσιάζουν ισχυρή προβλεπτική ικανότητα σε σύγκριση με αυτήν τη στήλη.
Αυτά τα ευρήματα είναι χρήσιμα για προπονητές ποδοσφαίρου, αναλυτές απόδοσης και επαγγελματίες του στοιχήματος που βασίζονται σε αποφάσεις καθοδηγούμενες από δεδομένα. Συνολικά, το έργο αναδεικνύει τον αυξανόμενο ρόλο της ανάλυσης δεδομένων στο ποδόσφαιρο και δείχνει πώς η μοντελοποίηση xG μπορεί να υποστηρίξει τόσο την ανάπτυξη στρατηγικής όσο και την αξιολόγηση απόδοσης.
Improvements to the Online Cost-aware Teacher-Student (OCaTS) framework
(2025-06-18) Ντανάς, Κωνσταντίνος; Ntanas, Konstantinos; Toumpis, Stavros; Stamoulis, Georgios; Androutsopoulos, Ion
Οι ραγδαίες εξελίξεις στην Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing - NLP) έχουν οδηγήσει στη δημιουργία ισχυρών Μεγάλων Γλωσσικών Μοντέλων (Large Language Models - LLMs). Ωστόσο, η χρήση τους από μικρές και μεσαίες επιχειρήσεις παραμένει περιορισμένη λόγω του υψηλού λειτουργικού κόστους που σχετίζεται με τις συχνές κλήσεις. Για την αντιμετώπιση του προβλήματος, αναπτύχθηκε το εργαλείο OCaTS (Cost-Aware Teacher-Student), το οποίο αξιοποιεί ένα μοντέλο-μαθητή ώστε να μειώσει την εξάρτηση από δαπανηρές ερωτήσεις προς τα LLMs. Το αρχικό μοντέλο όμως είχε περιορισμούς: βασιζόταν σε έναν μόνο δάσκαλο και απαιτούσε προκαθορισμένες τιμές κόστους.
Η βελτιωμένη εκδοχή του OCaTS εισάγει μια ιεραρχική αρχιτεκτονική με πολλαπλούς δασκάλους. Τα ερωτήματα προωθούνται, ανάλογα με την πολυπλοκότητά τους, σε διαφορετικά μοντέλα-δασκάλους, επιτυγχάνοντας καλύτερη ισορροπία μεταξύ κόστους και απόδοσης. Το σύστημα επεκτείνει τη μετρική της μειωμένης ακρίβειας (discounted accuracy) ώστε να υποστηρίζει πολλαπλούς δασκάλους και εισάγει δύο νέες μετρικές: Mass και Area, οι οποίες λειτουργούν χωρίς προκαθορισμένες τιμές κόστους.
Η νέα προσέγγιση μειώνει αισθητά τα λειτουργικά έξοδα, διατηρώντας υψηλή απόδοση στα καθήκοντα. Καθιστά έτσι τις λύσεις που βασίζονται σε LLMs πιο προσιτές και βιώσιμες για τις μικρές και μεσαίες επιχειρήσεις, διευκολύνοντας την υιοθέτηση προηγμένων τεχνολογιών γλώσσας σε πρακτικά περιβάλλοντα.
Evaluating lineups and predicting the impact of new players
(2025-07-29) Papageorgiou, Theodoros; Παπαγεωργίου, Θεόδωρος; Chasiotis, Vasileios; Chatziantoniou, Damianos; Karlis, Dimitrios
Η παρούσα διπλωματική εργασία δημιουργεί ερευνά την αξιολόγηση των συνθέσεων των ομάδων της EuroLeague και την πρόβλεψη του αντίκτυπου της προσθήκης νέων παικτών, χρησιμοποιώντας play-by-play δεδομένα από το 2016 έως το 2024. Πρώτα, εξήχθησαν όλες οι πεντάδες που έπαιξαν τουλάχιστον 15 λεπτά, με αποτέλεσμα να προκύψουν 2146 συνδυασμοί. Υπολογίστηκαν βασικά στατιστικά στοιχεία των πεντάδων, όπως η αποτελεσματικότητα των σουτ, τα λάθη, οι ασίστ, τα ριμπάουντ, ο ρυθμός και οι αμυντικές μετρήσεις. Οι μετρήσεις της απόδοσης των παικτών σταθεροποιήθηκαν χρησιμοποιώντας μια εμπειρική μέθοδο Bayes shrinkage για την επεξεργασία των περιορισμένων δεδομένων. Στη συνέχεια, εφαρμόστηκε clustering για τον προσδιορισμό των στυλ των σχηματισμών. Χρησιμοποιώντας k-means, προέκυψαν τρεις κύριες ομάδες: η μία επικεντρώθηκε στην ισχυρή άμυνα και τα λάθη, η άλλη στα ριμπάουντ με ασθενέστερη άμυνα και η τρίτη στην γρήγορη και αποτελεσματική επίτευξη πόντων. Τα μοντέλα PAM και Gaussian Mixture επιβεβαίωσαν παρόμοια μοτίβα, αν και ο διαχωρισμός ήταν αρκετά ήπιος.
Τέλος, δημιουργήθηκαν προγνωστικά μοντέλα για την εκτίμηση της απόδοσης της σύνθεσης (Net Rating) με βάση τα χαρακτηριστικά των παικτών. Τα μοντέλα περιελάμβαναν OLS, Ridge, Lasso και Random Forest και έδειξαν μεγάλη αλλα παρόμοια ακρίβεια. Χρησιμοποιόντας ένα απο αυτά έγιναν προσομοιώσεις για την ανταλλαγών παικτών με την ενημέρωση των χαρακτηριστικών της αντίστοιχης σύνθεσης.
Τα αποτελέσματα δείχνουν ότι, ακόμη και χωρίς δεδομένα παρακολούθησης, οι συνθέσεις της EuroLeague μπορούν να αναλυθούν και να προβλεφθούν αποτελεσματικά, προσφέροντας πρακτικές πληροφορίες για προπονητές και αναλυτές.
Approximate visual exploration of large time series data with accuracy guarantees
(2025-07-15) Pantoleon, Christos; Παντολέων, Χρήστος; Terrovitis, Emmanouil; Chatziantoniou, Damianos; Papastefanatos, George
Η εκθετική αύξηση των δεδομένων χρονοσειρών τόσο σε μέγεθος όσο και σε πολυπλοκότητα έχει δημιουργήσει σημαντικά εμπόδια στην ανάπτυξη οπτικοποιήσεων που να είναι ταυτόχρονα ακριβείς και αποδοτικές. Η ισορροπία μεταξύ υψηλής οπτικής πιστότητας και ελάχιστης καθυστέρησης παραμένει μια πρόκληση. Η οπτικοποίηση διαδραματίζει κρίσιμο ρόλο στην εξερεύνηση δεδομένων χρονοσειρών, επιτρέποντας στους χρήστες να ανιχνεύουν τάσεις, πρότυπα και ανωμαλίες που ενδέχεται να μην είναι εμφανή από τα ακατέργαστα δεδομένα.
Παρόλο που στρατηγικές μείωσης δεδομένων, όπως οι M4 και MinMaxCache, στοχεύουν στη μείωση των χρόνων απόκρισης διατηρώντας παράλληλα την οπτική ποιότητα, εξακολουθεί να υπάρχει σαφής έλλειψη απλών και πρακτικών πλαισίων για την αξιολόγηση της αποτελεσματικότητάς τους σε πραγματικά περιβάλλοντα. Οι υπάρχουσες μετρήσεις αναφοράς συνήθως εστιάζουν στην αποδοτικότητα του υποσυστήματος ή στην αλληλεπίδραση του χρήστη. Ωστόσο, συχνά υπολείπονται στην αξιολόγηση των δύο κρίσιμων παραμέτρων: της ακρίβειας της οπτικοποίησης και της απόκρισης του συστήματος, ζητήματα που γίνονται ολοένα και πιο δύσκολα να αντιμετωπιστούν όσο αυξάνεται το μέγεθος και η πολυπλοκότητα των δεδομένων. Η παρούσα διπλωματική εργασία παρουσιάζει το TimeVizBench, μια διαδικτυακή πλατφόρμα αξιολόγησης που έχει σχεδιαστεί για τη συστηματική εξέταση και σύγκριση μεθόδων οπτικοποίησης χρονοσειρών ως προς την καθυστέρηση και την πιστότητα. Το σύστημα επιτρέπει στους χρήστες να αλληλεπιδρούν με τις οπτικοποιήσεις μέσω ενός εύχρηστου περιβάλλοντος και παρέχει μετρικές απόδοσης, συμπεριλαμβανομένου του χρόνου ερωτημάτων στο backend, της διάρκειας απόδοσης στο frontend και της καθυστέρησης μεταφοράς δεδομένων. Για τη μέτρηση της οπτικής ακρίβειας, το εργαλείο χρησιμοποιεί τον Δείκτη Δομικής Ομοιότητας (SSIM), προσφέροντας μια αντικειμενική μετρική για τη σύγκριση των παραγόμενων οπτικοποιήσεων. Αξιοποιώντας αποδόσεις ακριβείας σε επίπεδο εικονοστοιχείου μέσω της βιβλιοθήκης D3.js και υποστηρίζοντας την ενσωμάτωση προσαρμοσμένων τεχνικών οπτικοποίησης, το TimeVizBench προσφέρει ένα ισχυρό και επεκτάσιμο πλαίσιο για ερευνητές και επαγγελματίες που επιδιώκουν να αξιολογήσουν στρατηγικές οπτικοποίησης υπό πραγματικές συνθήκες.
Computational statistics and GPU acceleration
(2025-07-28) Bampouris, Andreas; Μπαμπούρης, Ανδρέας; Vakeroudis, Stavros; Papagiannis, Georgios; Yannacopoulos, Athanasios
Η πρακτική εφαρμογή σύγχρονων στατιστικών μεθόδων καθίσταται συχνά υπολογιστικά απαγορευτική, λόγω του διαρκώς αυξανόμενου όγκου των δεδομένων και της πολυπλοκότητας των μοντέλων. Η παρούσα εργασία εξετάζει πώς η επιτάχυνση μέσω Μονάδων Επεξεργασίας Γραφικών (GPU) μπορεί να διευρύνει το πεδίο εφαρμογής τέτοιων μεθόδων. Η εργασία δομείται σε τρεις άξονες: (1) τη θεωρητική ανάλυση των υπολογιστικών «σημείων συμφόρησης» σε δύο ευρέως διαδεδομένες αλλά και εξαιρετικά απαιτητικές μεθόδους, τις Μεθόδους Πυρήνα (Kernel Methods) και το Gradient Boosting, καθώς και του αλγοριθμικού ανασχεδιασμού που απαιτείται για την αποδοτική τους εκτέλεση σε GPU, (2) την εμπειρική επικύρωση των δυνητικών κερδών απόδοσης, μέσω της συγκριτικής αξιολόγησης δύο βιβλιοθηκών λογισμικού αιχμής σε GPU, των Falkon και XGBoost, έναντι των αντίστοιχων υλοποιήσεών τους σε CPU, ποσοτικοποιώντας την επιτάχυνση σε πραγματικά σύνολα δεδομένων, και (3) την επισκόπηση των πλαισίων λογισμικού που καθιστούν εφικτές τέτοιες υλοποιήσεις, χρησιμοποιώντας ως ενδεικτική μελέτη περίπτωσης την υλοποίηση ενός μαζικά παράλληλου δειγματολήπτη Markov Chain Monte Carlo (MCMC) σε CUDA.
Τα αποτελέσματα καταδεικνύουν ότι η επίτευξη σημαντικών κερδών απόδοσης σε ευρέως διαθέσιμο υλικό GPU είναι εφικτή χωρίς καμία ουσιαστική απώλεια στατιστικής ακρίβειας, υπό την προϋπόθεση ότι οι αλγόριθμοι έχουν ανασχεδιαστεί ώστε να αξιοποιούν αποδοτικά τον παραλληλισμό και τις ιεραρχίες μνήμης. Γενικότερα, τα ευρήματα τεκμηριώνουν ότι η κλιμακωσιμότητα μεθόδων στατιστικής αποτελεί πρόβλημα τόσο μηχανικής λογισμικού, όσο και μεθοδολογίας: ο ανασχεδιασμός του αλγορίθμου, η δομή των δεδομένων, και η αρχιτεκτονική του υλικού απαιτούν συνδυαστική αντιμετώπιση. Προχωρώντας από τη θεωρία στην εμπειρική τεκμηρίωση και, τέλος, στην τεχνολογία της υλοποίησης, η παρούσα εργασία στοχεύει να γεφυρώσει το χάσμα μεταξύ της προηγμένης στατιστικής μοντελοποίησης και της υπολογιστικής υψηλών επιδόσεων, παρέχοντας τα εφόδια όχι μόνο για την αξιοποίηση των GPU, αλλά και για τη συνεισφορά στο ταχέως αναπτυσσόμενο αυτό πεδίο.