Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Emotion classification on greek tweets

Εναλλακτικός τίτλος :	Ταξινόμηση συναισθημάτων σε ελληνικά tweets

Δημιουργός :	Θαλασσινού-Λίσλεβαντ, Μαρίνα Thalassinou-Lislevand, Marina

Συντελεστής :	Παυλόπουλος, Ιωάννης (Επιβλέπων καθηγητής) Μαλακασιώτης, Πρόδρομος (Εξεταστής) Βασσάλος, Βασίλειος (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	47p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8148

Περίληψη :	Στη παρούσα διπλωματική πειραματιστήκαμε με τη μηδενική εκμάθηση (zero-shot learning) και τη μεταφορά μάθησης (transfer learning) από την πλούσια (σε πόρους) αγγλική γλώσσα στην ανεπαρκή (σε πόρους) ελληνική γλώσσα στο πρόβλημα της ταξινόμησης κειμένων βάσει συναισθήματος, μέσω του διαγλωσσικού μετασχηματιστή (transformer) XLM-RoBERTa (XLM-R). Προκειμένου να διαχειριστούμε το πρόβλημα της ταξινόμησης κειμένων βάσει συναισθήματος, πρώτα προσαρμόσαμε το XLM-R στο συγκεκριμένο πρόβλημα χρησιμοποιώντας ένα μεγάλο σύνολο δεδομένων από αγγλικά tweets. Στη συνέχεια, το μοντέλο προσαρμόστηκε στα ελληνικά tweets χρησιμοποιώντας (i) ένα τεχνητό σύνολο δεδομένων που δημιουργήθηκε από την ανάκτηση tweets, και (ii) ένα ταξινομημένο σύνολο δεδομένων κατασκευασμένο από το μηδέν σε συνεργασία με την εταιρεία PaloServices, ειδικά για αυτό το πρόβλημα. Επιπλέον, συγκρίναμε το μοντέλο μας με μοντέλα μηχανικής μάθησης (machine learning models) και τα αξιολογήσαμε με ένα σύνολο δεδομένων, το οποίο επίσης κατασκευάσαμε με την PaloServices, για τις ανάγκες της εργασίας μας. Τέλος, παρουσιάζουμε τα αποτελέσματα όλων των μοντέλων, συμπεριλαμβανομένης της μεθόδου μηδενικής εκμάθησης (zero-shot learning), για κάθε κατηγορία/συναίσθημα, πρωτίστως για το πρόβλημα της ταξινόμησης κειμένων βάσει εννιά συναισθημάτων και έπειτα βάσει των τριών: θετικό, αρνητικό και ουδέτερο συναίσθημα. In this thesis, we experimented with zero-shot and transfer learning from the high-resource English language to the low-resource Greek language on the emotion classification task using the multilingual transformer XLM-RoBERTa (XLM-R). In order to tackle emotion analysis, we first fine-tuned XLM-R on the specific task on a big corpus of English tweets. Subsequently, the model was fine-tuned on Greek tweets by using (i) an artificial dataset which was created by retrieving tweets, and (ii) an annotated dataset constructed from scratch in collaboration with the company PaloServices, especially for this project. Furthermore, we compared our model with machine learning models, and we evaluated them on a greek ground truth dataset, which also was constructed with PaloServices for the needs of our task. Finally, we presented the results of all models including the zero-shot learning method, for each category/emotion, mainly on the emotion classification task and secondly on the sentiment analysis task.

Περίληψη :

Στη παρούσα διπλωματική πειραματιστήκαμε με τη μηδενική εκμάθηση (zero-shot learning) και τη μεταφορά μάθησης (transfer learning) από την πλούσια (σε πόρους) αγγλική γλώσσα στην ανεπαρκή (σε πόρους) ελληνική γλώσσα στο πρόβλημα της ταξινόμησης κειμένων βάσει συναισθήματος, μέσω του διαγλωσσικού μετασχηματιστή (transformer) XLM-RoBERTa (XLM-R). Προκειμένου να διαχειριστούμε το πρόβλημα της ταξινόμησης κειμένων βάσει συναισθήματος, πρώτα προσαρμόσαμε το XLM-R στο συγκεκριμένο πρόβλημα χρησιμοποιώντας ένα μεγάλο σύνολο δεδομένων από αγγλικά tweets. Στη συνέχεια, το μοντέλο προσαρμόστηκε στα ελληνικά tweets χρησιμοποιώντας (i) ένα τεχνητό σύνολο δεδομένων που δημιουργήθηκε από την ανάκτηση tweets, και (ii) ένα ταξινομημένο σύνολο δεδομένων κατασκευασμένο από το μηδέν σε συνεργασία με την εταιρεία PaloServices, ειδικά για αυτό το πρόβλημα. Επιπλέον, συγκρίναμε το μοντέλο μας με μοντέλα μηχανικής μάθησης (machine learning models) και τα αξιολογήσαμε με ένα σύνολο δεδομένων, το οποίο επίσης κατασκευάσαμε με την PaloServices, για τις ανάγκες της εργασίας μας. Τέλος, παρουσιάζουμε τα αποτελέσματα όλων των μοντέλων, συμπεριλαμβανομένης της μεθόδου μηδενικής εκμάθησης (zero-shot learning), για κάθε κατηγορία/συναίσθημα, πρωτίστως για το πρόβλημα της ταξινόμησης κειμένων βάσει εννιά συναισθημάτων και έπειτα βάσει των τριών: θετικό, αρνητικό και ουδέτερο συναίσθημα.
In this thesis, we experimented with zero-shot and transfer learning from the high-resource English language to the low-resource Greek language on the emotion classification task using the multilingual transformer XLM-RoBERTa (XLM-R). In order to tackle emotion analysis, we first fine-tuned XLM-R on the specific task on a big corpus of English tweets. Subsequently, the model was fine-tuned on Greek tweets by using (i) an artificial dataset which was created by retrieving tweets, and (ii) an annotated dataset constructed from scratch in collaboration with the company PaloServices, especially for this project. Furthermore, we compared our model with machine learning models, and we evaluated them on a greek ground truth dataset, which also was constructed with PaloServices for the needs of our task. Finally, we presented the results of all models including the zero-shot learning method, for each category/emotion, mainly on the emotion classification task and secondly on the sentiment analysis task.

Λέξη κλειδί :	Επεξεργασία φυσικής γλώσσας Ταξινόμηση κειμένου Μηδενική εκμάθηση Μεταφορά μάθησης Μετασχηματιστές Natural Language Processing (NLP) Text classification Zero-shot learning Transfer learning Transformers

Διαθέσιμο από :	2020-12-08 20:47:35

Ημερομηνία έκδοσης :	30-11-2020

Ημερομηνία κατάθεσης :	2020-12-08 20:47:35

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Lislevand_2020.pdf

Τύπος: application/pdf

Είσοδος