Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Natural language understanding for dialogue systems using N-best lists

Εναλλακτικός τίτλος :	Κατανόηση ομιλούμενης γλώσσας σε συστήματα διαλόγου με τη χρήση Ν-καλύτερων λιστών

Δημιουργός :	Μάνσαλης, Ευστράτιος Mansalis, Efstratios

Συντελεστής :	Ανδρουτσόπουλος, Ίων (Επιβλέπων καθηγητής) Βασσάλος, Βασίλης (Εξεταστής) Καλογεράκη, Βάνα (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	52p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7469

Περίληψη :	Τα συστήματα διαλόγου αποτελούν ένα σημαντικό κομμάτι των εφαρμογών τεχνικής νοημοσύνης στις μέρες μας και βρίσκονται σε πολλές συσκευές που χρησιμοποιούμε στην καθημερινότητα μας στα κινητά, στους ηλεκτρονικούς υπολογιστές, στις συσκευές βοήθειας στο σπίτι και πολλές άλλες. Τα συστήματα αυτά έχουν ως βασικό σκοπό να βοηθήσουν τους χρήστες να ολοκληρώσουν συγκεκριμένες διαδικασίες ευκολότερα π.χ. να κάνουν κράτηση για μια πτήση τηλεφωνικώς. Τα παραδοσιακά συστήματα κατανόησης ομιλούμενης γλώσσας (Spoken Language Understanding - SLU) βασίζονται σε αρχιτεκτονικές συστημάτων οι οποίες αποτελούνται από δύο μέρη, αρχικά ένα σύστημα αναγνώρισης φωνής (Automatic Speech Recognition - ASR) αποκωδικοποιεί την φωνή σε κείμενο και στην συνέχεια ένα σύστημα (μοντέλο) κατανόησης της φυσικής γλώσσας (Natural Language Understanding - NLU) επεξεργάζεται το κείμενο για να εξάγει το νόημα και τι ακριβώς θέλει να πετύχει ο χρήστης. Ωστόσο ένα συχνό πρόβλημα αυτής της αρχιτεκτονικής είναι ότι λάθη που παρατηρούνται κατά την αποκωδικοποίηση της γλώσσας εξαιτίας του τρόπου που μιλάει ο χρήστης, της διαλέκτου που χρησιμοποιεί, το στυλ της φωνής του ή ακόμα και του θορύβου στο χώρο που βρίσκεται οδηγεί σε λανθασμένη αποκωδικοποίηση η οποία στην συνέχεια οδηγεί σε λανθασμένη κατανόηση κατά την ερμηνεία. Επειδή είναι πολύ σημαντικό αυτά τα συστήματα να αντιλαμβάνονται αυτά τα λάθη, μία τεχνική για βελτίωση είναι αντί το σύστημα κατανόησης ομιλούμενης γλώσσας να δέχεται ως είσοδο από το σύστημα αναγνώρισης φωνής την καλύτερη υπόθεση (1best hypothesis) να δέχεται μια λίστα από τις Ν-καλύτερες (n-best lists). Σε αυτήν την εργασία εξετάσαμε αν βελτιώνεται για το πρόβλημα ανίχνευσης πρόθεσης του χρήστη (intent detection) χρησιμοποιώντας παραδοσιακές αρχιτεκτονικές ανατροφοδοτούμενων (RNNs) νευρωνικών δικτυών όπως και με σύγχρονες μεθόδους (transformers). Dialogue systems are an important part of today’s world Artificial Intelligence (AI) applications. Task-oriented dialogue systems have as main goal to help users to complete certain tasks more efficiently. Spoken language understanding (SLU), a key component of task-oriented dialogue systems, is the problem of extracting the meaning from speech utterances. It is typically addressed as a two-task procedure, where initially an Automatic Speech Recognition (ASR) model is employed to decode speech into text, followed by a Natural Language Understanding (NLU) model that takes as input the most likely hypothesis for the user’s utterance in order to extract the meaning. Several challenges lead to errors in ASR that propagate to the NLU. Because misrecognition of a word may result in misunderstanding of the whole utterance, a technique in order these systems to be more robust is instead of using the most likely hypothesis (1-best) as input to the NLU module to use a list of most likely hypotheses (N-best lists). In this thesis, we examined if the SLU system performance for the problem of intent detection is improved by using N-best lists as input to NLU during training, as a form of data augmentation, compared to using only the 1-best hypothesis. We conducted experiments using a set of standard LSTM-based architectures and state-of-the-art transformers models using the recently introduced Fluent Speech Commands (FSC) dataset, where intents are formed in classes as combinations of three slots (action, object, and location).

Περίληψη :

Τα συστήματα διαλόγου αποτελούν ένα σημαντικό κομμάτι των εφαρμογών τεχνικής νοημοσύνης στις μέρες μας και βρίσκονται σε πολλές συσκευές που χρησιμοποιούμε στην καθημερινότητα μας στα κινητά, στους ηλεκτρονικούς υπολογιστές, στις συσκευές βοήθειας στο σπίτι και πολλές άλλες. Τα συστήματα αυτά έχουν ως βασικό σκοπό να βοηθήσουν τους χρήστες να ολοκληρώσουν συγκεκριμένες διαδικασίες ευκολότερα π.χ. να κάνουν κράτηση για μια πτήση τηλεφωνικώς. Τα παραδοσιακά συστήματα κατανόησης ομιλούμενης γλώσσας (Spoken Language Understanding - SLU) βασίζονται σε αρχιτεκτονικές συστημάτων οι οποίες αποτελούνται από δύο μέρη, αρχικά ένα σύστημα αναγνώρισης φωνής (Automatic Speech Recognition - ASR) αποκωδικοποιεί την φωνή σε κείμενο και στην συνέχεια ένα σύστημα (μοντέλο) κατανόησης της φυσικής γλώσσας (Natural Language Understanding - NLU) επεξεργάζεται το κείμενο για να εξάγει το νόημα και τι ακριβώς θέλει να πετύχει ο χρήστης. Ωστόσο ένα συχνό πρόβλημα αυτής της αρχιτεκτονικής είναι ότι λάθη που παρατηρούνται κατά την αποκωδικοποίηση της γλώσσας εξαιτίας του τρόπου που μιλάει ο χρήστης, της διαλέκτου που χρησιμοποιεί, το στυλ της φωνής του ή ακόμα και του θορύβου στο χώρο που βρίσκεται οδηγεί σε λανθασμένη αποκωδικοποίηση η οποία στην συνέχεια οδηγεί σε λανθασμένη κατανόηση κατά την ερμηνεία. Επειδή είναι πολύ σημαντικό αυτά τα συστήματα να αντιλαμβάνονται αυτά τα λάθη, μία τεχνική για βελτίωση είναι αντί το σύστημα κατανόησης ομιλούμενης γλώσσας να δέχεται ως είσοδο από το σύστημα αναγνώρισης φωνής την καλύτερη υπόθεση (1best hypothesis) να δέχεται μια λίστα από τις Ν-καλύτερες (n-best lists). Σε αυτήν την εργασία εξετάσαμε αν βελτιώνεται για το πρόβλημα ανίχνευσης πρόθεσης του χρήστη (intent detection) χρησιμοποιώντας παραδοσιακές αρχιτεκτονικές ανατροφοδοτούμενων (RNNs) νευρωνικών δικτυών όπως και με σύγχρονες μεθόδους (transformers).
Dialogue systems are an important part of today’s world Artificial Intelligence (AI) applications. Task-oriented dialogue systems have as main goal to help users to complete certain tasks more efficiently. Spoken language understanding (SLU), a key component of task-oriented dialogue systems, is the problem of extracting the meaning from speech utterances. It is typically addressed as a two-task procedure, where initially an Automatic Speech Recognition (ASR) model is employed to decode speech into text, followed by a Natural Language Understanding (NLU) model that takes as input the most likely hypothesis for the user’s utterance in order to extract the meaning. Several challenges lead to errors in ASR that propagate to the NLU. Because misrecognition of a word may result in misunderstanding of the whole utterance, a technique in order these systems to be more robust is instead of using the most likely hypothesis (1-best) as input to the NLU module to use a list of most likely hypotheses (N-best lists). In this thesis, we examined if the SLU system performance for the problem of intent detection is improved by using N-best lists as input to NLU during training, as a form of data augmentation, compared to using only the 1-best hypothesis. We conducted experiments using a set of standard LSTM-based architectures and state-of-the-art transformers models using the recently introduced Fluent Speech Commands (FSC) dataset, where intents are formed in classes as combinations of three slots (action, object, and location).

Λέξη κλειδί :	Επεξεργασία φυσικής γλώσσας Νευρωνικά δίκτυα Συστήματα διαλόγου Κατανόηση ομιλούμενης γλώσσας Βαθιά μάθηση Natural Language Processing (NLP) Neural Networks (NN) Dialogue systems Natural Language Understanding (NLU) Deep learning

Διαθέσιμο από :	2020-01-15 12:05:04

Ημερομηνία έκδοσης :	12/15/2019

Ημερομηνία κατάθεσης :	2020-01-15 12:05:04

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Mansalis_2019.pdf

Τύπος: application/pdf

Είσοδος