Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Biomedical question answering

Εναλλακτικός τίτλος :	Απάντηση ερωτήσεων σε βιοϊατρικά κείμενα

Δημιουργός :	Stavropoulos. Petros Σταυρόπουλος, Πέτρος

Συντελεστής :	Androutsopoulos, Ion (Επιβλέπων καθηγητής) Koutsopoulos, Iordanis (Εξεταστής) Papageorgiou, Haris (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	52p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8235

Περίληψη :	Question Answering and Machine Reading Comprehension (MRC) are crucial and complextasks in the Field of Natural Language Processing (NLP). In this thesis, we first introduceBioMRC, a novel biomedical dataset for cloze-type Question Answering, based on previouswork of the BioRead dataset, implementing the same baselines and models for comparison.We then develop two new models based on the SciBert model from AllenAI for solvingthe task of BioMRC. We use these pre-trained models as a transfer learning approachfor the BioASQ Task 8B Phase B, in a modified architecture, to investigate whether ourdataset can be used for improving exact answer Question Answering tasks. In addition,we experiment with other BERT-based models for solving the BioASQ task, which usethe SpanBert and BioBert models, as well as the Text-to-Text Transfer Transformer (T5)model, a generative Transformer-based model, which achieved the best results for the task.Moreover, we create a cloze-type version of the BioASQ Task 8B Phase B factoid instancessubset, which is used to boost the T5’s results when pre-trained on the BioMRC dataset,but can also be used in future work for automatic transformation of question-answerinstances to cloze-type question instances. Lastly, we perform error analysis of our bestmodel for the BioASQ task for exact answers, where we point out the shortcomings of thetask evaluation measures and some mistakes, that could be fixed by the BioASQ organizers,as an improvement of the task. Η απάντηση ερωτημάτων (Question Answering) και η μηχανική κατανόηση κειμένου (Machine Reading Comprehension) είναι ιδιαίτερα πολύπλοκα και απαιτητικά προβλήματα στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing), τα οποία είναι πολύ σημαντικά για την ανάπτυξη του κλάδου.Στην παρούσα διπλωματική εργασία παρουσιάζουμε το BioMRC, ένα καινούριο σύνολο δεδομένων στον χώρο της βιοϊατρικής για απάντηση ερωτημάτων κλειστού τύπου (cloze-type), το οποίο βασίζεται στην προηγούμενη δουλειά του συνόλου δεδομένων BioRead. Υλοποιούμε τα ίδια συστήματα που είχαν χρησιμοποιηθεί στο BioRead για να μπορεί να γίνει σύγκριση.Υλοποιούμε επίσης δύο νέα συστήματα τα οποία χρησιμοποιούν το μοντέλο SciBert του AllenAI για την επίλυση του task του BioMRC.Χρησιμοποιούμε τα εν λόγω συστήματα σε μια τροποποιημένη αρχιτεκτονική, προεκπαιδευμένα στο BioMRC, ως μια προσέγγιση μεταφοράς γνώσης (transfer learning) για το BioASQ Task 8B Phase B, για να ανακαλύψουμε αν η προεκπαίδευση στο σύνολο δεδομένων μας μπορεί να χρησιμοποιηθεί ως μέθοδος βελτίωσης της επίδοσης σε προβλήματα απάντησης ερωτημάτων με ακριβείς απαντήσεις (exact answer).Επιπροσθέτως, διεξάγουμε πειράματα με συστήματα που χρησιμοποιούν BERT μοντέλα όπως το SpanBert και το BioBert για την επίλυση του BioASQ προβλήματος, όπως επίσης και με το σύστημα Text-to-Text Transfer Transformer (T5), το οποίο υλοποιούμε σε μια αρχιτεκτονική που παράγει κείμενο ως την ακριβή απάντηση, αντί να επισημειώνει τις εκτάσεις (spans) της σωστής απάντησης στα δοθέντα κείμενα, πετυχαίνοντας τα καλύτερα αποτελέσματα στο πρόβλημα.Με σκοπό να βελτιστοποιηθούν τα αποτελεσμάτα του παραπάνω συστήματος όταν αυτό προεκπαιδεύεται στο BioMRC, μετατρέψαμε όλες τις ερωτήσεις που ζητούν ακριβείς απαντήσεις (factoid questions) σε ερωτήσεις κλειστού τύπου.Το παραπάνω σύνολο δεδομένων θα μπορούσε να χρησιμοποιηθεί και για την υλοποίηση συστημάτων για αυτόματη μετατροπή των ερωτήσεων σε κλειστού τύπου ερωτήσεις.Τέλος, διενεργούμε ανάλυση των λάθων (error analysis) για το καλύτερο σύστημα μας στο BioASQ πρόβλημα για ακριβείς απαντήσεις, όπου δείχνουμε τα ελαττώματα των μετρικών που χρησιμοποιούνται στο BioASQ, καθώς και κάποια σφάλματα στις ορθές απαντήσεις του συνόλου δεδομένων, τα οποία θα μπορούσαν να επιδιορθώσουν οι δημιουργοί του προβλήματος για την βελτίωσή του.

Περίληψη :

Question Answering and Machine Reading Comprehension (MRC) are crucial and complextasks in the Field of Natural Language Processing (NLP). In this thesis, we first introduceBioMRC, a novel biomedical dataset for cloze-type Question Answering, based on previouswork of the BioRead dataset, implementing the same baselines and models for comparison.We then develop two new models based on the SciBert model from AllenAI for solvingthe task of BioMRC. We use these pre-trained models as a transfer learning approachfor the BioASQ Task 8B Phase B, in a modified architecture, to investigate whether ourdataset can be used for improving exact answer Question Answering tasks. In addition,we experiment with other BERT-based models for solving the BioASQ task, which usethe SpanBert and BioBert models, as well as the Text-to-Text Transfer Transformer (T5)model, a generative Transformer-based model, which achieved the best results for the task.Moreover, we create a cloze-type version of the BioASQ Task 8B Phase B factoid instancessubset, which is used to boost the T5’s results when pre-trained on the BioMRC dataset,but can also be used in future work for automatic transformation of question-answerinstances to cloze-type question instances. Lastly, we perform error analysis of our bestmodel for the BioASQ task for exact answers, where we point out the shortcomings of thetask evaluation measures and some mistakes, that could be fixed by the BioASQ organizers,as an improvement of the task.
Η απάντηση ερωτημάτων (Question Answering) και η μηχανική κατανόηση κειμένου (Machine Reading Comprehension) είναι ιδιαίτερα πολύπλοκα και απαιτητικά προβλήματα στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing), τα οποία είναι πολύ σημαντικά για την ανάπτυξη του κλάδου.Στην παρούσα διπλωματική εργασία παρουσιάζουμε το BioMRC, ένα καινούριο σύνολο δεδομένων στον χώρο της βιοϊατρικής για απάντηση ερωτημάτων κλειστού τύπου (cloze-type), το οποίο βασίζεται στην προηγούμενη δουλειά του συνόλου δεδομένων BioRead. Υλοποιούμε τα ίδια συστήματα που είχαν χρησιμοποιηθεί στο BioRead για να μπορεί να γίνει σύγκριση.Υλοποιούμε επίσης δύο νέα συστήματα τα οποία χρησιμοποιούν το μοντέλο SciBert του AllenAI για την επίλυση του task του BioMRC.Χρησιμοποιούμε τα εν λόγω συστήματα σε μια τροποποιημένη αρχιτεκτονική, προεκπαιδευμένα στο BioMRC, ως μια προσέγγιση μεταφοράς γνώσης (transfer learning) για το BioASQ Task 8B Phase B, για να ανακαλύψουμε αν η προεκπαίδευση στο σύνολο δεδομένων μας μπορεί να χρησιμοποιηθεί ως μέθοδος βελτίωσης της επίδοσης σε προβλήματα απάντησης ερωτημάτων με ακριβείς απαντήσεις (exact answer).Επιπροσθέτως, διεξάγουμε πειράματα με συστήματα που χρησιμοποιούν BERT μοντέλα όπως το SpanBert και το BioBert για την επίλυση του BioASQ προβλήματος, όπως επίσης και με το σύστημα Text-to-Text Transfer Transformer (T5), το οποίο υλοποιούμε σε μια αρχιτεκτονική που παράγει κείμενο ως την ακριβή απάντηση, αντί να επισημειώνει τις εκτάσεις (spans) της σωστής απάντησης στα δοθέντα κείμενα, πετυχαίνοντας τα καλύτερα αποτελέσματα στο πρόβλημα.Με σκοπό να βελτιστοποιηθούν τα αποτελεσμάτα του παραπάνω συστήματος όταν αυτό προεκπαιδεύεται στο BioMRC, μετατρέψαμε όλες τις ερωτήσεις που ζητούν ακριβείς απαντήσεις (factoid questions) σε ερωτήσεις κλειστού τύπου.Το παραπάνω σύνολο δεδομένων θα μπορούσε να χρησιμοποιηθεί και για την υλοποίηση συστημάτων για αυτόματη μετατροπή των ερωτήσεων σε κλειστού τύπου ερωτήσεις.Τέλος, διενεργούμε ανάλυση των λάθων (error analysis) για το καλύτερο σύστημα μας στο BioASQ πρόβλημα για ακριβείς απαντήσεις, όπου δείχνουμε τα ελαττώματα των μετρικών που χρησιμοποιούνται στο BioASQ, καθώς και κάποια σφάλματα στις ορθές απαντήσεις του συνόλου δεδομένων, τα οποία θα μπορούσαν να επιδιορθώσουν οι δημιουργοί του προβλήματος για την βελτίωσή του.

Λέξη κλειδί :	Natural language processing Question answering Deep learning Machine learning Artificial intelligence Επεξεργασία φυσικής γλώσσας Απάντηση ερωτημάτων Βαθιά μάθηση Μηχανική μάθηση Τεχνητή νοημοσύνη

Διαθέσιμο από :	2020-12-30 19:20:38

Ημερομηνία έκδοσης :	2020

Ημερομηνία κατάθεσης :	2020-12-30 19:20:38

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Stavropoulos_2020.pdf

Τύπος: application/pdf

Είσοδος