Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Toxicity detection on Greek tweets

Εναλλακτικός τίτλος :	Εντοπισμός τοξικότητας σε ελληνικά tweets

Δημιουργός :	Anagnostopoulos, Theodoros

Συντελεστής :	Pavlopoulos, Ioannis (Επιβλέπων καθηγητής) Malakasiotis, Prodromos (Επιβλέπων καθηγητής) Vassalos, Vasilios (Επιβλέπων καθηγητής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	34p.

Γλώσσα :	en

Περίληψη :	In this thesis, we experimented with detecting verbally offensive (toxic) greek tweets withgreek & multilingual transformer models. We firstly compared said BERT models on apublicly available greek dataset on toxic tweet detection. Having been trained on that publicdataset, we tested their ability to generalize their knowledge on our newly annotated datasetconstructed, in collaboration with PALOservices. Furthermore, we applied Semi-Supervisedlearning techniques on 10,000 unlabeled data to augment the existing training data, andfurther increase performance on our dataset. We also further pretrained a BERT model on300,000 unlabeled tweets to examine its capacity to learn new tokens and detect toxicity in amore reliable way. Lastly, we experimented with sentiment and emotion in tweets, not only toinvestigate possible correlations with toxicity but also, once again, to maximize our model’spredictive ability on offensive language detection. Στην παρούσα διπλωματική, πειραματιστήκαμε με τον εντοπισμό λεκτικά προσβλητικών(τοξικών) ελληνικών tweets με ελληνικά και πολύγλωσσα μοντέλα μετασχηματιστών (transformers). Αρχικά συγκρίναμε τα εν λόγω μοντέλα BERT σε ένα δημοσίως διαθέσιμο ελληνικό σύνολο δεδομένων για την ανίχνευση τοξικών tweet. Έχοντας εκπαιδευτεί σε αυτότο δημόσιο σύνολο δεδομένων, δοκιμάσαμε την ικανότητά τους να γενικεύουν τις γνώσεις τους στο νέο σχολιασμένο σύνολο δεδομένων μας που κατασκευάσαμε, σε συνεργασία με την PALOservices. Επιπλέον, εφαρμόσαμε τεχνικές ημι-εποπτευόμενης εκμάθησης (Semi-Supervised learning) σε 10.000 μη επισημειωμένα δεδομένα για να αυξήσουμε τα υπάρχοντα δεδομένα εκπαίδευσης και να αυξήσουμε περαιτέρω την απόδοση στο σύνολο δεδομένων μας. Επίσης, εκπαιδεύσαμε (furhter pretraining) ένα μοντέλο BERT σε 300.000μη επισημειωμένα δεδομένα tweets για να εξετάσουμε την ικανότητά του να μαθαίνει νέα διακριτικά και να ανιχνεύει την τοξικότητα με πιο αξιόπιστο τρόπο. Τέλος,πειραματιστήκαμε με το συναίσθημα (sentiment) στα tweets, όχι μόνο για να διερευνήσουμε πιθανές συσχετίσεις με την τοξικότητα, αλλά επίσης, για άλλη μια φορά, για να μεγιστοποιήσουμε την προγνωστική ικανότητα του μοντέλου μας στον εντοπισμό προσβλητικής γλώσσας.

Περίληψη :

In this thesis, we experimented with detecting verbally offensive (toxic) greek tweets withgreek & multilingual transformer models. We firstly compared said BERT models on apublicly available greek dataset on toxic tweet detection. Having been trained on that publicdataset, we tested their ability to generalize their knowledge on our newly annotated datasetconstructed, in collaboration with PALOservices. Furthermore, we applied Semi-Supervisedlearning techniques on 10,000 unlabeled data to augment the existing training data, andfurther increase performance on our dataset. We also further pretrained a BERT model on300,000 unlabeled tweets to examine its capacity to learn new tokens and detect toxicity in amore reliable way. Lastly, we experimented with sentiment and emotion in tweets, not only toinvestigate possible correlations with toxicity but also, once again, to maximize our model’spredictive ability on offensive language detection.
Στην παρούσα διπλωματική, πειραματιστήκαμε με τον εντοπισμό λεκτικά προσβλητικών(τοξικών) ελληνικών tweets με ελληνικά και πολύγλωσσα μοντέλα μετασχηματιστών (transformers). Αρχικά συγκρίναμε τα εν λόγω μοντέλα BERT σε ένα δημοσίως διαθέσιμο ελληνικό σύνολο δεδομένων για την ανίχνευση τοξικών tweet. Έχοντας εκπαιδευτεί σε αυτότο δημόσιο σύνολο δεδομένων, δοκιμάσαμε την ικανότητά τους να γενικεύουν τις γνώσεις τους στο νέο σχολιασμένο σύνολο δεδομένων μας που κατασκευάσαμε, σε συνεργασία με την PALOservices. Επιπλέον, εφαρμόσαμε τεχνικές ημι-εποπτευόμενης εκμάθησης (Semi-Supervised learning) σε 10.000 μη επισημειωμένα δεδομένα για να αυξήσουμε τα υπάρχοντα δεδομένα εκπαίδευσης και να αυξήσουμε περαιτέρω την απόδοση στο σύνολο δεδομένων μας. Επίσης, εκπαιδεύσαμε (furhter pretraining) ένα μοντέλο BERT σε 300.000μη επισημειωμένα δεδομένα tweets για να εξετάσουμε την ικανότητά του να μαθαίνει νέα διακριτικά και να ανιχνεύει την τοξικότητα με πιο αξιόπιστο τρόπο. Τέλος,πειραματιστήκαμε με το συναίσθημα (sentiment) στα tweets, όχι μόνο για να διερευνήσουμε πιθανές συσχετίσεις με την τοξικότητα, αλλά επίσης, για άλλη μια φορά, για να μεγιστοποιήσουμε την προγνωστική ικανότητα του μοντέλου μας στον εντοπισμό προσβλητικής γλώσσας.

Λέξη κλειδί :	Επεξεργασία φυσικής γλώσσας Ταξινόμηση κειμένου Μετασχηματιστές NLP Text classification Transformers

Ημερομηνία κατάθεσης :	2022-02-03 10:00:06

Ημερομηνία αποδοχής :	2022-02-04 18:59:24

Δικαιώματα χρήσης :	Ανοιχτή πρόσβαση

Άδεια χρήσης :

Αρχείο: Anagnostopoulos_2021.pdf

Τύπος: application/pdf

Είσοδος