Λογότυπο αποθετηρίου
 

Computational statistics and GPU acceleration

dc.aueb.departmentDepartment of Statistics
dc.aueb.notesSupplementary code, data, and thesis materials are available on GitHub (https://github.com/andbamp/stats-gpu).en
dc.aueb.notesΣυμπληρωματικός κώδικας, δεδομένα και όλο το υλικό της διπλωματικής εργασίας διατίθενται στο GitHub (https://github.com/andbamp/stats-gpu).el
dc.aueb.programMSc in Applied Statistics
dc.contributor.opponentVakeroudis, Stavrosen
dc.contributor.opponentPapagiannis, Georgiosen
dc.contributor.thesisadvisorYannacopoulos, Athanasiosen
dc.creatorBampouris, Andreasen
dc.creatorΜπαμπούρης, Ανδρέαςel
dc.date.accessioned2025-07-30T13:15:03Z
dc.date.available2025-07-30T13:15:03Z
dc.date.issued2025-07-28
dc.description.abstractΗ πρακτική εφαρμογή σύγχρονων στατιστικών μεθόδων καθίσταται συχνά υπολογιστικά απαγορευτική, λόγω του διαρκώς αυξανόμενου όγκου των δεδομένων και της πολυπλοκότητας των μοντέλων. Η παρούσα εργασία εξετάζει πώς η επιτάχυνση μέσω Μονάδων Επεξεργασίας Γραφικών (GPU) μπορεί να διευρύνει το πεδίο εφαρμογής τέτοιων μεθόδων. Η εργασία δομείται σε τρεις άξονες: (1) τη θεωρητική ανάλυση των υπολογιστικών «σημείων συμφόρησης» σε δύο ευρέως διαδεδομένες αλλά και εξαιρετικά απαιτητικές μεθόδους, τις Μεθόδους Πυρήνα (Kernel Methods) και το Gradient Boosting, καθώς και του αλγοριθμικού ανασχεδιασμού που απαιτείται για την αποδοτική τους εκτέλεση σε GPU, (2) την εμπειρική επικύρωση των δυνητικών κερδών απόδοσης, μέσω της συγκριτικής αξιολόγησης δύο βιβλιοθηκών λογισμικού αιχμής σε GPU, των Falkon και XGBoost, έναντι των αντίστοιχων υλοποιήσεών τους σε CPU, ποσοτικοποιώντας την επιτάχυνση σε πραγματικά σύνολα δεδομένων, και (3) την επισκόπηση των πλαισίων λογισμικού που καθιστούν εφικτές τέτοιες υλοποιήσεις, χρησιμοποιώντας ως ενδεικτική μελέτη περίπτωσης την υλοποίηση ενός μαζικά παράλληλου δειγματολήπτη Markov Chain Monte Carlo (MCMC) σε CUDA. Τα αποτελέσματα καταδεικνύουν ότι η επίτευξη σημαντικών κερδών απόδοσης σε ευρέως διαθέσιμο υλικό GPU είναι εφικτή χωρίς καμία ουσιαστική απώλεια στατιστικής ακρίβειας, υπό την προϋπόθεση ότι οι αλγόριθμοι έχουν ανασχεδιαστεί ώστε να αξιοποιούν αποδοτικά τον παραλληλισμό και τις ιεραρχίες μνήμης. Γενικότερα, τα ευρήματα τεκμηριώνουν ότι η κλιμακωσιμότητα μεθόδων στατιστικής αποτελεί πρόβλημα τόσο μηχανικής λογισμικού, όσο και μεθοδολογίας: ο ανασχεδιασμός του αλγορίθμου, η δομή των δεδομένων, και η αρχιτεκτονική του υλικού απαιτούν συνδυαστική αντιμετώπιση. Προχωρώντας από τη θεωρία στην εμπειρική τεκμηρίωση και, τέλος, στην τεχνολογία της υλοποίησης, η παρούσα εργασία στοχεύει να γεφυρώσει το χάσμα μεταξύ της προηγμένης στατιστικής μοντελοποίησης και της υπολογιστικής υψηλών επιδόσεων, παρέχοντας τα εφόδια όχι μόνο για την αξιοποίηση των GPU, αλλά και για τη συνεισφορά στο ταχέως αναπτυσσόμενο αυτό πεδίο.el
dc.description.abstractModern statistical methods often become computationally prohibitive as data volumes and model complexity grow. This thesis examines how Graphics Processing Unit (GPU) acceleration can expand the practical scale of such methods. We organize the work around three components: (1) a theoretical analysis of computational bottlenecks in two widely-used but immensely intensive methods, Kernel Methods and Gradient Boosting, and the algorithmic redesign required for efficient GPU execution; (2) an empirical validation of the potential performance gains by benchmarking two state-of-the-art, GPU-accelerated libraries, Falkon and XGBoost, against CPU-based baselines on real-world datasets to quantify speedups and assess effects on predictive accuracy; and (3) an implementation-oriented overview of the enabling software frameworks, developing a massively parallel Markov Chain Monte Carlo (MCMC) sampler in CUDA as an illustrative case study. Results indicate that substantial performance gains are attainable on commodity GPU hardware with no material loss in statistical accuracy when algorithms are reformulated to exploit fine-grained parallelism and memory hierarchies. More broadly, the findings underscore that scalability in statistics is as much an engineering problem as it is a methodological one: algorithm design, data layout, and hardware architecture must be considered jointly. By moving from theory, to empirical evidence, to the underlying engineering, this thesis aims to bridge the gap between advanced statistical modelling and high-performance computing, and provides the tools to not only leverage but also contribute to this expanding field.en
dc.embargo.ruleOpen access
dc.format.extentpages 141en
dc.identifier.urihttps://pyxida.aueb.gr/handle/123456789/12083
dc.identifier.urihttps://doi.org/10.26219/heal.aueb.9368
dc.languageen
dc.rightsAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectComputational statisticsen
dc.subjectHigh-performance computingen
dc.subjectGraphics Processing Unit (GPU)en
dc.subjectKernel methodsen
dc.subjectKernel ridge regressionen
dc.subjectGradient boostingen
dc.subjectXGBoosten
dc.subjectMarkov Chain Monte Carlo (MCMC)en
dc.subjectSoftware engineeringen
dc.subjectCUDAen
dc.subjectArtificial Intelligence (AI)en
dc.subjectMachine Learning (ML)en
dc.subjectData scienceen
dc.subjectGPU accelerationen
dc.subjectΥπολογιστική στατιστικήel
dc.subjectΥπολογιστική υψηλών επιδόσεωνel
dc.subjectΕπιτάχυνση μέσω GPUel
dc.subjectΜέθοδοι πυρήναel
dc.subjectΜηχανική λογισμικούel
dc.subjectΤεχνητή νοημοσύνηel
dc.subjectΜηχανική μάθησηel
dc.titleComputational statistics and GPU accelerationen
dc.title.alternativeΣτατιστική και επιτάχυνση μέσω GPUel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Bampouris_2025.pdf
Μέγεθος:
3.8 MB
Μορφότυπο:
Adobe Portable Document Format