Συλλογές
Τίτλος Cross-lingual adaptation in automatic speech recognition
Εναλλακτικός τίτλος Πολυγλωσσική προσέγγιση στην αυτόματη αναγνώριση ήχου
Δημιουργός Γκούζιας, Θωμάς, Gkouzias, Thomas
Συντελεστής Vassalos, Vasilios
Athens University of Economics and Business, Department of Informatics
Androutsopoulos, Ion
Malakasiotis, Prodromos
Τύπος Text
Φυσική περιγραφή 52p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9038
Περίληψη Automatic speech recognition is a complex task in Natural Language Processing, and whilehumans do it effortlessly, machines have a harder time with it. Nowadays, the advent ofartificial intelligence and neural networks have improved our ability to tackle tasks likespeech recognition. Nevertheless, a serious disadvantage of such a task, is the difficultyof finding appropriate and sufficient data. In this thesis, we seek a solution to this issuefor Greek speech recognition systems, by exploring whether a cross-lingual approach canimprove these very systems. To achieve this, we exploit transfer learning, and particularlya powerful pre-trained model called wav2vec 2.0 XLSR. Trained on fifty-three languagesother than Greek, it serves as an effective way to observe if "knowledge" of foreign speechcan be used to help speech recognition systems with the Greek language. We also examinehow data availability affects our models, even when following a transfer learning strategy.
Η αυτόματη αναγνώριση ήχου είναι ένα πολύπλοκο πρόβλημα της ΕπεξεργασίαςΦυσικής Γλώσσας, και ενώ οι άνθρωποι το αντιμετωπίζουν με ευκολία, οι υπολογιστέςδυσκολεύονται. Τη σήμερον ημέρα, ο ερχομός της τεχνητής νοημοσύνης και τωννευρωνικών δικτύων έχει βελτιώσει την ικανότητα μας να επιλύουμε προβλήματα όπωςη αναγνώριση ήχου. Παρ’ όλα αυτά, ένα σοβαρό μειονέκτημα ενός τέτοιουπροβλήματος είναι η δυσκολία εύρεσης κατάλληλων και επαρκών δεδομένων. Σε αυτήτη διπλωματική εργασία, αναζητούμε μία λύση σε αυτό το ζήτημα εστιάζοντας σεσυστήματα αναγνώρισης Ελληνικού λόγου, εξερευνώντας το αν μια πολυγλωσσικήπροσέγγιση μπορεί να τα καλυτερεύσει. Για να το πετύχουμε αυτό, εκμεταλλευόμαστετη μεταφερόμενη μάθηση (transfer learning), και συγκεκριμένα ένα ισχυρόπροεκπαιδευμένο μοντέλο που ονομάζεται wav2vec 2.0 XLSR. Όνταςπροεκπαιδευμένο σε πενήντα τρεις γλώσσες, μη συμπεριλαμβανομένων τωνΕλληνικών, αποτελεί έναν αποτελεσματικό τρόπο να διαπιστώσουμε εάν η «γνώση»ξενόγλωσσου λόγου μπορεί να χρησιμοποιηθεί ώστε να βελτιωθούν μοντέλαφτιαγμένα για να αναγνωρίζουν Ελληνικό λόγο. Επιπλέον, εξετάζουμε το πως ηδιαθεσιμότητα δεδομένων επηρεάζει τα μοντέλα μας, ακόμα και όταν αξιοποιείταικάποια τεχνική μεταφερόμενης μάθησης.
Λέξη κλειδί Πολυγλωσσική προσέγγιση
Μεταφερόμενη μάθηση
Automatic speech recognition
Natural language processing
Cross-lingual approach
Transfer learning
Αυτόματη αναγνώριση ήχου
Επεξεργασία φυσικής γλώσσας
Διαθέσιμο από 2022-01-10 22:47:39
Ημερομηνία έκδοσης 12/04/2021
Ημερομηνία κατάθεσης 2022-01-10 22:47:39
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/