Πλοήγηση ανά Επιβλέπων "Toumpis, Stavros"
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Τώρα δείχνει 1 - 4 από 4
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Τεκμήριο Exploring the effects of Stochastic Gradient Descent variants on Transformer models for Natural Language Processing tasks(23-12-2022) Γκούτη, Μαρία-Νεφέλη; Gkouti, Maria-Nefeli; Athens University of Economics and Business, Department of Informatics; Markakis, Evangelos; Androutsopoulos, Ion; Toumpis, Stavros; Malakasiotis, ProdromosΟι περισσότεροι αλγόριθμοι στη Βαθιά μάθηση εμπεριέχουν τεχνικές βελτιστοποίησης. Με τον όρο βελτιστοποίηση εννοούμε την ελαχιστοποίηση μιας συνάρτησης. Η συνάρτη- ση αυτή ονομάζεται αντικειμενική συνάρτηση, και στην περίπτωση της Βαθιάς Μάθησης πολλές φορές καλείται συνάρτηση κόστους/σφάλματος. Ένας τέτοιος αλγόριθμος βελτι- στοποίησης βρίσκει τις τιμές των παραμέτρων (τα βάρη του νευρωνικού δικτύου) που ελαχιστοποιούν το σφάλμα του μοντέλου.Τα τελευταία χρόνια έχουν προταθεί μια πληθώρα τέτοιων αλγορίθμων, με πιο ευρέως διαδεδομένο τον Adam (Adaptive Moment Optimization algorithm). Ωστόσο, η μέχρι τώρα βιβλιογραφία απαριθμεί κάποιες εκατοντάδες τέτοιων μεθόδων, με τις περισσότερες να αποτελούν παραλλαγές του αλγορίθμου Adam. Το ερώτημα αν είναι καθοριστική στην απόδοση του μοντέλου, η επιλογή του αλγορίθμου βελτιστοποίησης είναι ανοιχτό. Εμπειρικά, φαίνεται ότι η καλύτερη επιλογή εξαρτάται από το πρόβλημα που καλείται να λύσει το νευρωνικό δίκτυο. Επιπλέον, τέτοιοι αλγόριθμοι περιέχουν αρκετές υπερπαραμέτρους, όπως είναι ο ρυθμός μάθησης (learning rate), στις οποίες αν εκχωρηθούν κατάλληλες τιμές, η απόδοση των αλγορίθμων αυξάνεται σημαντικά. Έχουν γίνει αρκετές προσπάθειες από ερευνητές, με σκοπό να αποφανθούν ποιος αλγόριθμος είναι προτιμότερος, σε σχέση με το ελάχιστο σφάλμα που παρουσιάζει το δίκτυο όταν εισάγουμε καινούρια δεδομένα και σε συνάρτηση πάντα με το υπολογιστικό κόστος που απαιτείται για να βρεθούν οι βέλτιστες τιμές των υπερπαραμέτρων του. Φαίνεται η επιστημονική κοινότητα να συγκλίνει στην άποψη ότι δεν υπάρχει αλγόριθμος βελτιστο- ποιήσης που να τα πηγαίνει καλύτερα σε όλα τα προβλήματα. Σε αυτή την εργασία, επιβεβαιώνουμε τον προηγούμενο ισχυρισμό, εστιάζοντας σε προβλήματα Επεργασίας Φυσικής Γλώσσας, και συγκεκριμένα σε προβλήματα ταξινόμησης κεινένων που εμπεριέχονται στο General Language Understanding Evaluation (GLUE) benchmark. Μελετάμε και συγκρίνουμε παραλλαγές του Adam, εξετάζοντας το ρόλο που παίζουν οι υπερπαράμετροι στην απόδοση τους. Στις περισσότερες περιπτώσεις οι διαφορές στην απόδοση τους είναι μικρές και συνήθως ασταθείς. Ένα ενδιαφέρον αποτέλεσμα αποτελεί ότι ο Stochastic Gradient Descent (SGD) with momentum έχει συγκρίσιμα αποτελέσματα με βελτιωμένες εκδοχές του Adam, ενώ ο απλός SGD εμφανίζει σημαντικά χειρότερα αποτελέσματα.Τεκμήριο Federated, continual and meta-learning algorithms for multi-task settings(13-12-2024) Νικολουτσόπουλος, Σωτήριος; Nikoloutsopoulos, Sotirios; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Koutsopoulos, Iordanis; Markakis, Evangelos; Blekas, Konstantinos; Stafylakis, Themos; Pavlopoulos, Ioannis; Toumpis, StavrosΗ ερευνητική εργασία η οποία περιλαμβάνεται στη διατριβή αυτή αφορά τρεις νέους αλγορίθμους Μηχανικής Μάθησης, ο καθένας εκ των οποίων αντιμετωπίζει προβλήματα πολλαπλών εργασιών (multiple tasks) σε ένα συγκεκριμένο πλαίσιο. Αυτού του είδους η Μάθηση πολλαπλών εργασιών (Multi-Task Learning) αφορά των χειρισμό πολλαπλών εργασιών είναι ταυτόχρονα είτε σειριακά, με κάθε εργασία να ορίζεται βάσει μιας συνάρτησης στόχου (objective function). Το πλήθος των εργασιών μπορεί να είναι πεπερασμένο ή άπειρο, και οι εργασίες μπορεί να είναι κατανεμημένες σε πολλούς πελάτες ή να βρίσκονται συγκεντρωμένες σε έναν. Οι αλγόριθμοι που προτείνει η ερευνητική εργασία αντιμετωπίσουν την μάθηση πολλαπλών εργασιών στα πλαίσια της προσωποποιημένης ομόσπονδης μάθησης, (Personalized Federated Learning), της Συνεχούς Μάθησης (Continual Learning) και της Μέτα-Μάθησης (Meta-Learning). Ο καθένας εξ αυτών είναι βελτιστοποιημένος για το συγκεκριμένο περιβάλλον στο οποίο λειτουργεί.Στο Κεφάλαιο 2 η διατριβή εξετάζει την Μάθηση Πολλαπλών Εργασιών στο πλαίσιο της προσωποποιημένης Ομόσπονδης Μάθησης και, συγκεκριμένα, εφαρμόζεται προκειμένου να κατασκευαστεί μια από κοινού αναπαράσταση (representation) στο εύρος ενός πεπερασμένου συνόλου εργασιών κατανεμημένων σε πολλαπλούς πελάτες. Αυτή η από κοινού αναπαράσταση για όλους τους πελάτες επιτρέπει καλύτερη γενίκευση και επιτρέπει σε κάθε ένα από τα μοντέλα να εκπαιδευτούν στην εργασία τους πιο γρήγορα, ιδιαιτέρως όταν το μέγεθος του συνόλου δεδομένων (dataset) του κάθε πελάτη είναι πεπερασμένο. Η διατριβή προτείνει έναν αλγόριθμο που βασίζεται σε μια ακριβή, κατανεμημένη, τεχνική στοχαστικής κατάβασης κλίσης (exact, distributed, Stochastic Gradient Descent) η οποία διαθέτει θεωρητικές εγγυήσεις σύγκλισης. Ο αλγόριθμος μπορεί να χειριστεί ένα πεπερασμένο πλήθος εργασιών κατανεμημένων σε πολλαπλούς πελάτες, μέσω της από κοινού βελτιστοποίησης δύο συνόλων βαρών, εκ των οποίων το ένα σύνολο περιλαμβάνει κοινά βάρη και το άλλο προσωποποιημένα βάρη. Η μέθοδος παρουσιάζει υψηλή επίδοση σε προβλήματα κατηγοριοποίησης σε σύνολα δεδομένων πολλαπλών κλάσεων (multi-class classification data sets)Στο Κεφάλαιο 3 η διατριβή εξετάζει την Μάθηση Πολλαπλών Εργασιών στο πλαίσιο της Συνεχούς Μάθησης (Continual Learning). Επομένως, σε αντίθεση με την συνήθη προσέγγιση κατά την οποία η μάθηση επιτελείται με πρόσβαση σε όλα τα δεδομένων εργασιών, ο πράκτορας πρέπει να προσαρμόζεται στις εργασίες ακολουθιακά, καθώς αυτές καταφθάνουν από μια ροή, ενώ ταυτόχρονα διατηρεί διαρκώς καλή επίδοση σε όλες τις εργασίες. Η διατριβή εστιάζει σε προβλήματα κατηγοριοποίησης και Συνεχή Μάθηση σταδιακά προστιθέμενων εργασιών (task-incremental), όπου νέες κλάσεις εισάγονται διαδοχικά, απαιτώντας από τον πράκτορα να προσαρμόζεται σε νέες κλάσεις καθώς περνά ο χρόνος. Σε αντίθεση με την απλή Μάθηση Πολλαπλών Εργασιών, στο πλαίσιο της Συνεχούς Μάθησης ο πράκτορας δεν έχει ταυτόχρονη πρόσβαση σε όλα τα δεδομένα και δεν μπορεί να επεξεργαστεί εκ νέου παλιά δεδομένα εκτός αν αυτά έχουν επί τούτου αποθηκευτεί στη μνήμη του. Αυτός ο περιορισμός, σε συνδυασμό με τις ανισορροπίες στην εμφάνιση των κλάσεων που είναι εγγενείς στη ροή των εισερχομένων δεδομένων, δημιουργεί δυσκολίες στο να επιτευχθεί δικαιοσύνη μεταξύ κλάσεων σε ό,τι αφορά την ακρίβεια (accuracy) καθώς ο πράκτορας πρέπει να μάθει να αντιμετωπίζει τις διαφορετικές κλάσεις δίκαια. Προκειμένου να αντιμετωπισθεί αυτή τη δυσκολία, η διατριβή εισάγει μια μέθοδο σύγχρονης (online) Συνεχούς Μάθησης που βασίζεται σε επαναληπτική μάθηση (online replay-based Continual Learning) που ελαχιστοποιεί την απώλεια Kullback-Leibler (KL) προκειμένου να επιτύχει δικαιοσύνη σε προβλήματα με μεγάλη ανισορροπία στα σχετικά πλήθη των παραδειγμάτων σε κάθε κλάση. Η μέθοδος επιτυγχάνει βελτιωμένη δικαιοσύνη και ακρίβεια κατά μήκος συνόλων δεδομένων (data sets) όπως τα MNIST, CIFAR-10, και CIFAR-100 σε σχέση με σύγχρονους (state-of-the-art) τεχνικές Δειγματοληψίας Ταμιευτήρα (Reservoir Sampling).Στο Κεφάλαιο 4 η διατριβή εξετάζει την Μάθηση Πολλαπλών Εργασιών στο πλαίσιο της Μέτα-Μάθησης (Meta-Learning). Η Μάθηση Πολλαπλών Εργασιών επιτρέπει τον ταυτόχρονο χειρισμό πολλαπλών εργασιών και προωθεί τον διαμοιρασμό πληροφορίας μεταξύ των εργασιών προκειμένου να ενισχυθεί η γενίκευση και η επίδοση, αλλά η Μέτα-Μάθηση ενισχύει περαιτέρω αυτές τις δυνατότητες εστιάζοντας στην προσαρμογή σε άπειρο πλήθος εργασιών, οι οποίες αντλώνται από κάποια κατανομή. Σε αυτό το πλαίσιο, η κωδικοποίηση εργασιών (task encoding) έχει ένα κεντρικό ρόλο: αναγνωρίζοντας την κωδικοποίηση της εργασίας, το μοντέλο αντιλαμβάνεται την εργασία που καλείται να αντιμετωπίζει και προσαρμόζεται ανάλογα. Μια κρίσιμη ιδέα σε αυτό το πλαίσιο είναι η μοντελοποίηση και η μάθηση μιας στοχαστικής απεικόνισης ή κωδικοποίησης και της κατανομής της έτσι ώστε να εμπεριέχει όσο περισσότερη πληροφορία γίνεται για κάθε εργασία και να οδηγεί σε ακριβής προβλέψεις. Αυτό είναι ιδιαίτερα σημαντικό σε περιβάλλοντα με μετακίνηση κατανομής (distribution drift), όπως αυτά της Συνεχούς Μάθησης, όπου οι εργασίες αλλάζουν με το χρόνο. Η διατριβή παρουσιάζει ένα πλαίσιο Μέτα-Μάθησης χρησιμοποιώντας τις έννοιες της Αμοιβαίας Πληροφορίας (Mutual Information) και της Αρχής Στενωπού της Πληροφορίας (Information Bottleneck Principle). Το πλαίσιο επιτρέπει στοχαστικές γενικεύσεις του γνωστού Αλγορίθμου Model-Agnostic Meta Learning (MAML) καθώς και νέους αλγορίθμους που βασίζονται στη μνήμη (Memory-based) οι οποίες εφαρμόζουν τεχνικές πυρήνων γκαουσιανών διαδικασιών, που επιτυγχάνουν ανταγωνιστική επίδοση σε σχέση με το state-of-the-art σε προβλήματα παρεμβολής και κατηγοριοποίησης σύντομης εκπαίδευσης (few-shot).Τεκμήριο Performance of adaptive stochastic gradient descent optimization algorithms in natural language processing tasks(24-10-2024) Poulos, Pavlos; Πούλος, Παύλος; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Malakasiotis, Makis; Toumpis, StavrosΗ παρούσα διπλωματική εργασία διερευνά την επίδραση της ρύθμισης υπερπαραμέτρων στην απόδοση διαφόρων αλγορίθμων βελτιστοποίησης στο πεδίο της βαθιάς μάθησης, με έμφαση στις διεργασίες Επεξεργασίας Φυσικής Γλώσσας (NLP). Βασισμένοι σε προηγούμενη έρευνα, συγκρίνουμε αναπροσαρμοστικούς αλγορίθμους βελτιστοποίησης (όπως Adam και AdamW) με μη αναπροσαρμοστικούς (όπως SGD και SGDM) σε πολλά μοντέλα, διεργασίες και σύνολα δεδομένων NLP. Ο κύριος στόχος είναι να εξεταστεί αν η ρύθμιση μόνο του ρυθμού μάθησης, όπως προτάθηκε σε παλαιότερες μελέτες, είναι επαρκής για την επίτευξη υψηλής απόδοσης ή αν απαιτείται μια πιο εκτεταμένη ρύθμιση για ορισμένους αλγορίθμους.Τα πειράματά μας, που διεξήχθησαν σε μοντέλα κωδικοποιητή-αποκωδικοποιητή και σε διεργασίες περίληψης κειμένου, δείχνουν ότι οι αναπροσαρμοστικοί αλγόριθμοι μπορούν να επιτύχουν υψηλή απόδοση με ελάχιστη ρύθμιση, ειδικά όταν ρυθμίζεται μόνο ο ρυθμός μάθησης. Το αποτέλεσμα αυτό υποδηλώνει ότι οι αναπροσαρμοστικοί αλγόριθμοι μπορούν να απλοποιήσουν τη διαδικασία εκπαίδευσης μειώνοντας την ανάγκη εκτεταμένης ρύθμισης υπερπαραμέτρων, εξοικονομώντας έτσι υπολογιστικό κόστος. Αντίθετα, οι μη αναπροσαρμοστικοί αλγόριθμοι, ιδιαίτερα ο SGDM, ωφελούνται από μια πιο λεπτομερή ρύθμιση πολλαπλών υπερπαραμέτρων για την επίτευξη ανταγωνιστικής απόδοσης, υπογραμμίζοντας την ευαισθησία τους στις επιλογές ρύθμισης.Τα ευρήματα δείχνουν ότι αυτές οι τάσεις ισχύουν σε διαφορετικές διεργασίες και σύνολα δεδομένων NLP, επεκτείνοντας τα συμπεράσματα της προηγούμενης έρευνας από απλούστερες διεργασίες σε πιο σύνθετες εφαρμογές, όπως η περίληψη κειμένου. Η συνέπεια αυτή υποδεικνύει ότι τα συμπεράσματά μας σχετικά με την απόδοση των αλγορίθμων βελτιστοποίησης είναι σημαντικά για ένα ευρύ φάσμα εφαρμογών NLP.Συνοψίζοντας, η παρούσα εργασία προσφέρει πρακτικές πληροφορίες σχετικά με στρατηγικές βελτιστοποίησης για το NLP, υπογραμμίζοντας αποτελεσματικές πρακτικές ρύθμισης και τους συμβιβασμούς μεταξύ αναπροσαρμοστικών και μη αναπροσαρμοστικών αλγορίθμων. Αυτές οι πληροφορίες αποτελούν χρήσιμη καθοδήγηση για την επιλογή και ρύθμιση αλγορίθμων βελτιστοποίησης στο NLP και γενικότερα στις εφαρμογές βαθιάς μάθησης, εξισορροπώντας την απόδοση του μοντέλου με την αποδοτικότητα της εκπαίδευσης.Τεκμήριο Utility maximization in wireless delay-tolerant networks(25-10-2021) Giannopoulos, Theodosis; Γιαννόπουλος, Θεοδόσης; Athens University of Economics and Business, Department of Informatics; Siris, Vasilios; Xylomenos, George; Toumpis, StavrosThis work formulates, studies, and solves efficiently the Delay Tolerant Network UtilityMaximization (DTNUM) Problem. This problem describes the optimization of theflow of data in a wireless Delay-Tolerant Networking (DTN), i.e., a network that may lackcontinuous connectivity due to mobility or long distance between network nodes. Thetime-varying network topology is modeled with a directed graph consisting of a cascadeof connected subgraphs. Each subgraph corresponds to the topology of the networkduring one epoch. Due to the large number of epochs needed to model the evolution ofthe network accurately and the inherent complexities of modeling a wireless channel, asolution to the problem using standard methods can be quite intractable. For this reason,this research uses an algorithm for calculating approximations of the Capacity Region (CR)of a wireless network, i.e., the set of all possible combinations of wireless link throughputthat are simultaneously achievable. For each epoch there is an associated capacityregion and during its calculation simplifying assumptions and approximations are madebecause of the complexity of the problem. Afterwards, the construction of the optimizationproblem is represented and the efficiency of the method evaluated.