PYXIDA Institutional Repository
and Digital Library
 Home
Collections :

Title :Cross-lingual adaptation in automatic speech recognition
Alternative Title :Πολυγλωσσική προσέγγιση στην αυτόματη αναγνώριση ήχου
Creator :Gkouzias, Thomas
Γκούζιας, Θωμάς
Contributor :Malakasiotis, Prodromos (Επιβλέπων καθηγητής)
Androutsopoulos, Ion (Εξεταστής)
Vassalos, Vasilios (Εξεταστής)
Athens University of Economics and Business, Department of Informatics (Degree granting institution)
Type :Text
Notes :Company supervisor: Stauros Lagousis
Extent :52p.
Language :en
Identifier :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9038
Abstract :Automatic speech recognition is a complex task in Natural Language Processing, and whilehumans do it effortlessly, machines have a harder time with it. Nowadays, the advent ofartificial intelligence and neural networks have improved our ability to tackle tasks likespeech recognition. Nevertheless, a serious disadvantage of such a task, is the difficultyof finding appropriate and sufficient data. In this thesis, we seek a solution to this issuefor Greek speech recognition systems, by exploring whether a cross-lingual approach canimprove these very systems. To achieve this, we exploit transfer learning, and particularlya powerful pre-trained model called wav2vec 2.0 XLSR. Trained on fifty-three languagesother than Greek, it serves as an effective way to observe if "knowledge" of foreign speechcan be used to help speech recognition systems with the Greek language. We also examinehow data availability affects our models, even when following a transfer learning strategy.
Η αυτόματη αναγνώριση ήχου είναι ένα πολύπλοκο πρόβλημα της ΕπεξεργασίαςΦυσικής Γλώσσας, και ενώ οι άνθρωποι το αντιμετωπίζουν με ευκολία, οι υπολογιστέςδυσκολεύονται. Τη σήμερον ημέρα, ο ερχομός της τεχνητής νοημοσύνης και τωννευρωνικών δικτύων έχει βελτιώσει την ικανότητα μας να επιλύουμε προβλήματα όπωςη αναγνώριση ήχου. Παρ’ όλα αυτά, ένα σοβαρό μειονέκτημα ενός τέτοιουπροβλήματος είναι η δυσκολία εύρεσης κατάλληλων και επαρκών δεδομένων. Σε αυτήτη διπλωματική εργασία, αναζητούμε μία λύση σε αυτό το ζήτημα εστιάζοντας σεσυστήματα αναγνώρισης Ελληνικού λόγου, εξερευνώντας το αν μια πολυγλωσσικήπροσέγγιση μπορεί να τα καλυτερεύσει. Για να το πετύχουμε αυτό, εκμεταλλευόμαστετη μεταφερόμενη μάθηση (transfer learning), και συγκεκριμένα ένα ισχυρόπροεκπαιδευμένο μοντέλο που ονομάζεται wav2vec 2.0 XLSR. Όνταςπροεκπαιδευμένο σε πενήντα τρεις γλώσσες, μη συμπεριλαμβανομένων τωνΕλληνικών, αποτελεί έναν αποτελεσματικό τρόπο να διαπιστώσουμε εάν η «γνώση»ξενόγλωσσου λόγου μπορεί να χρησιμοποιηθεί ώστε να βελτιωθούν μοντέλαφτιαγμένα για να αναγνωρίζουν Ελληνικό λόγο. Επιπλέον, εξετάζουμε το πως ηδιαθεσιμότητα δεδομένων επηρεάζει τα μοντέλα μας, ακόμα και όταν αξιοποιείταικάποια τεχνική μεταφερόμενης μάθησης.
Subject :Automatic speech recognition
Natural language processing
Cross-lingual approach
Transfer learning
Αυτόματη αναγνώριση ήχου
Επεξεργασία φυσικής γλώσσας
Πολυγλωσσική προσέγγιση
Μεταφερόμενη μάθηση
Date Available :2022-01-10 22:47:39
Date Issued :12/04/2021
Date Submitted :2022-01-10 22:47:39
Access Rights :Free access
Licence :

File: Gkouzias_2021.pdf

Type: application/pdf