Συλλογές
Τίτλος Emotion classification on greek tweets
Εναλλακτικός τίτλος Ταξινόμηση συναισθημάτων σε ελληνικά tweets
Δημιουργός Thalassinou-Lislevand, Marina, Θαλασσινού-Λίσλεβαντ, Μαρίνα
Συντελεστής Βασσάλος, Βασίλειος
Athens University of Economics and Business, Department of Informatics
Μαλακασιώτης, Πρόδρομος
Παυλόπουλος, Ιωάννης
Τύπος Text
Φυσική περιγραφή 47p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8148
Περίληψη In this thesis, we experimented with zero-shot and transfer learning from the high-resource English language to the low-resource Greek language on the emotion classification task using the multilingual transformer XLM-RoBERTa (XLM-R). In order to tackle emotion analysis, we first fine-tuned XLM-R on the specific task on a big corpus of English tweets. Subsequently, the model was fine-tuned on Greek tweets by using (i) an artificial dataset which was created by retrieving tweets, and (ii) an annotated dataset constructed from scratch in collaboration with the company PaloServices, especially for this project. Furthermore, we compared our model with machine learning models, and we evaluated them on a greek ground truth dataset, which also was constructed with PaloServices for the needs of our task. Finally, we presented the results of all models including the zero-shot learning method, for each category/emotion, mainly on the emotion classification task and secondly on the sentiment analysis task.
Στη παρούσα διπλωματική πειραματιστήκαμε με τη μηδενική εκμάθηση (zero-shot learning) και τη μεταφορά μάθησης (transfer learning) από την πλούσια (σε πόρους) αγγλική γλώσσα στην ανεπαρκή (σε πόρους) ελληνική γλώσσα στο πρόβλημα της ταξινόμησης κειμένων βάσει συναισθήματος, μέσω του διαγλωσσικού μετασχηματιστή (transformer) XLM-RoBERTa (XLM-R). Προκειμένου να διαχειριστούμε το πρόβλημα της ταξινόμησης κειμένων βάσει συναισθήματος, πρώτα προσαρμόσαμε το XLM-R στο συγκεκριμένο πρόβλημα χρησιμοποιώντας ένα μεγάλο σύνολο δεδομένων από αγγλικά tweets. Στη συνέχεια, το μοντέλο προσαρμόστηκε στα ελληνικά tweets χρησιμοποιώντας (i) ένα τεχνητό σύνολο δεδομένων που δημιουργήθηκε από την ανάκτηση tweets, και (ii) ένα ταξινομημένο σύνολο δεδομένων κατασκευασμένο από το μηδέν σε συνεργασία με την εταιρεία PaloServices, ειδικά για αυτό το πρόβλημα. Επιπλέον, συγκρίναμε το μοντέλο μας με μοντέλα μηχανικής μάθησης (machine learning models) και τα αξιολογήσαμε με ένα σύνολο δεδομένων, το οποίο επίσης κατασκευάσαμε με την PaloServices, για τις ανάγκες της εργασίας μας. Τέλος, παρουσιάζουμε τα αποτελέσματα όλων των μοντέλων, συμπεριλαμβανομένης της μεθόδου μηδενικής εκμάθησης (zero-shot learning), για κάθε κατηγορία/συναίσθημα, πρωτίστως για το πρόβλημα της ταξινόμησης κειμένων βάσει εννιά συναισθημάτων και έπειτα βάσει των τριών: θετικό, αρνητικό και ουδέτερο συναίσθημα.
Λέξη κλειδί Text classification
Zero-shot learning
Transfer learning
Transformers
Natural Language Processing (NLP)
Μετασχηματιστές
Ταξινόμηση κειμένου
Μηδενική εκμάθηση
Μεταφορά μάθησης
Επεξεργασία φυσικής γλώσσας
Διαθέσιμο από 2020-12-08 20:47:35
Ημερομηνία έκδοσης 30-11-2020
Ημερομηνία κατάθεσης 2020-12-08 20:47:35
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/