Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Toxicity classification for the detection of ageism on social media

Εναλλακτικός τίτλος :	Ταξινόμηση τοξικού λόγου για την ανίχνευση ηλικιακού ρατσισμού στα μέσα κοινωνικής δικτύωσης

Δημιουργός :	Πετεινού, Ελένη Peteinou, Eleni

Συντελεστής :	Pavlopoulos, Ioannis (Επιβλέπων καθηγητής) Androutsopoulos, Ion (Εξεταστής) Louridas, Panagiotis (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	55p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10080

Περίληψη :	Η παρούσα διπλωματική έρευνα αφορά τον κλάδο της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing). Πιο συγκεκριμένα, διερευνά το θέμα της Ταξινόμησης Τοξικού Λόγου (Toxicity Classification), μια διεργασία κατά την οποία ένας αλγόριθμος Μηχανικής Μάθησης, αφού εκπαιδευτεί πάνω σε σχετικά δεδομένα, καλείται να ανιχνεύσει εάν ένα κείμενο περιέχει τοξικό λόγο. Ως τοξικός λόγος νοείται οποιουδήποτε είδους λεκτική επικοινωνία χρησιμοποιεί προσβλητικό ή χυδαίο λεξιλόγιο και έχει στόχο να θίξει ή να στιγματίσει ένα άτομο ή μια κοινωνική ομάδα. Η μεγαλύτερη πρόκληση που καλούνται να αντιμετωπίσουν τα Συστήματα Ανίχνευσης Τοξικού Λόγου (Toxic Speech Detection Systems) είναι το να εντοπίσουν όχι μόνο τις πιο προφανείς μορφές τοξικότητας, που διατυπώνονται μέσω υβριστικού λεξιλογίου, αλλά και τις πιο υποδόριες εκδοχές της, οι οποίες πραγματώνονται μέσα από τη χρήση ειρωνείας και σαρκασμού ή απαιτούν γνώση περικειμενικών στοιχείων (context) μιας συνομιλίας ώστε να γίνουν κατανοητές. Ένα από τα περιβάλλοντα όπου συχνά παρατηρείται χρήση τοξικού λόγου είναι τα μέσα κοινωνικής δικτύωσης. Πλατφόρμες οι οποίες θα έπρεπε να αποτελούν σημεία ανταλλαγής γόνιμων συζητήσεων και αποδοχής της διαφορετικότητας γίνονται συχνά πεδίο ανταλλαγής κακόβουλων μηνυμάτων και λεκτικής κακοποίησης από χρήστες που επιλέγουν να εκφραστούν επιθετικά εναντίον άλλων χρηστών. Πολλές είναι οι έρευνες που έχουν επιχειρήσει να κατασκευάσουν ακριβή Συστήματα Ανίχνευσης Τοξικού Λόγου για τα μέσα κοινωνικής δικτύωσης. Στην πλειοψηφία τους, τα συστήματα αυτά είναι προσαρμοσμένα για την αγγλική γλώσσα μιας και η χρήση της είναι ιδιαίτερα δημοφιλής στο διαδίκτυο, ακόμη και από μη φυσικούς ομιλητές. Ενώ υπάρχουν και αρκετές έρευνες που εξειδικεύονται στην ανίχνευση φαινομένων τοξικού λόγου που αφορούν ένα συγκεκριμένο είδος τοξικότητας (π.χ. σεξισμός, εθνικιστικά σχόλια). Η διαφοροποίηση της παρούσας μελέτης έγκειται στο γεγονός ότι επικεντρώνεται στην ανίχνευση ενός όχι τόσο προβεβλημένου είδους τοξικού λόγου, του ηλικιακού ρατσισμού. Αν και όχι τόσο ευρέως μελετημένος όσο άλλα είδη διάκρισης, ο ηλικιακός ρατσισμός, σύμφωνα και με τον Διεθνή Οργανισμό Υγείας (World Health Organization) μετρά πολυάριθμες συνέπειες για όσους γίνονται στόχοι του. Συνεπώς, η συμβολή αυτής της έρευνας μπορεί να συνοψιστεί στα εξής σημεία: τη μελέτη ενός ιδιαίτερα επικίνδυνου είδους τοξικού λόγου, που δεν έχει μέχρι στιγμής λάβει την προσοχή που του αρμόζει, τη διερεύνηση ενός συνόλου δεδομένων (προερχόμενου από τους Fraser et al., 2022) που αφορούν τον ηλικιακό ρατσισμό και την επισημείωση ενός μικρού δείγματος από αυτά. Τέλος την παραγωγή αποτελεσμάτων που υποδηλώνουν ότι ένα Σύστημα Ανίχνευσης Τοξικού Λόγου, με ικανοποιητική απόδοση σε πιο γενικευμένες περιπτώσεις τοξικότητας, αδυνατεί να αναγνωρίσει τοξικά μηνύματα που περιέχουν ηλικιακό ρατσισμό, με αποτέλεσμα να κρίνεται χρήσιμη η δημιουργία συστημάτων, εξειδικευμένων στην ανίχνευση του συγκεκριμένου είδους. The present thesis is concerned with the subject of Toxicity Classification. For this Natural Language Processing task, a Machine Learning Algorithm is trained to identify instances of toxic discourse in given textual data. As toxic discourse can be defined any instance of speech that carries an offensive meaning and serves the purpose of humiliating, insulting or verbally harassing a certain individual or a social group. Such occurrences are very common on social media platforms that can turn from virtual spaces of fruitful communication and exchange of opinions to fields of microaggressions, abuse, and identity attacks. In order to mitigate online toxicity, it is important to construct efficient Toxicity Detection Systems that will yield the ability to recognize both explicit cases of toxic messages and examples of more implicitly conveyed toxicity. Identifying context dependent, indirect toxicity, has been up to now the biggest challenge Toxicity Detection had to confront. There are numerous studies that have opted to train Machine Learning models for Toxicity Detection. The majority of them deployed data in English language as its use is quite prevalent on social media and constitutes the preferred language of communication even for many nonnative speakers. Additionally, there has been significant amount of research focused on detecting specific topic-related forms of online toxicity such as sexism, racism etc. The research conducted for the present thesis aims to differentiate itself from past work, by concentrating on a not so popular yet omnipresent form of online toxicity. Even though understudied, ageism is a manner of abuse that can cause severe consequences on various aspects to those experiencing it, according to the World Health Organization (WHO). Consequently, the contribution of this study, could be summarized in the statements following: bringing attention to a topic that has yet to receive suitable amount of awareness in the field of Toxicity Detection, exploration of a social media extracted corpus, containing age-related stereotypes (by Fraser et al., 2022), and annotation of a small sample from these texts. Finally, the produced results indicate that a generic Toxicity Detection System, recording satisfactory performance on generalized toxicity, faces difficulty in recognizing patterns in ageist messages, suggesting the need for ageism-specified toxicity classifiers.

Περίληψη :

Η παρούσα διπλωματική έρευνα αφορά τον κλάδο της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing). Πιο συγκεκριμένα, διερευνά το θέμα της Ταξινόμησης Τοξικού Λόγου (Toxicity Classification), μια διεργασία κατά την οποία ένας αλγόριθμος Μηχανικής Μάθησης, αφού εκπαιδευτεί πάνω σε σχετικά δεδομένα, καλείται να ανιχνεύσει εάν ένα κείμενο περιέχει τοξικό λόγο. Ως τοξικός λόγος νοείται οποιουδήποτε είδους λεκτική επικοινωνία χρησιμοποιεί προσβλητικό ή χυδαίο λεξιλόγιο και έχει στόχο να θίξει ή να στιγματίσει ένα άτομο ή μια κοινωνική ομάδα. Η μεγαλύτερη πρόκληση που καλούνται να αντιμετωπίσουν τα Συστήματα Ανίχνευσης Τοξικού Λόγου (Toxic Speech Detection Systems) είναι το να εντοπίσουν όχι μόνο τις πιο προφανείς μορφές τοξικότητας, που διατυπώνονται μέσω υβριστικού λεξιλογίου, αλλά και τις πιο υποδόριες εκδοχές της, οι οποίες πραγματώνονται μέσα από τη χρήση ειρωνείας και σαρκασμού ή απαιτούν γνώση περικειμενικών στοιχείων (context) μιας συνομιλίας ώστε να γίνουν κατανοητές. Ένα από τα περιβάλλοντα όπου συχνά παρατηρείται χρήση τοξικού λόγου είναι τα μέσα κοινωνικής δικτύωσης. Πλατφόρμες οι οποίες θα έπρεπε να αποτελούν σημεία ανταλλαγής γόνιμων συζητήσεων και αποδοχής της διαφορετικότητας γίνονται συχνά πεδίο ανταλλαγής κακόβουλων μηνυμάτων και λεκτικής κακοποίησης από χρήστες που επιλέγουν να εκφραστούν επιθετικά εναντίον άλλων χρηστών. Πολλές είναι οι έρευνες που έχουν επιχειρήσει να κατασκευάσουν ακριβή Συστήματα Ανίχνευσης Τοξικού Λόγου για τα μέσα κοινωνικής δικτύωσης. Στην πλειοψηφία τους, τα συστήματα αυτά είναι προσαρμοσμένα για την αγγλική γλώσσα μιας και η χρήση της είναι ιδιαίτερα δημοφιλής στο διαδίκτυο, ακόμη και από μη φυσικούς ομιλητές. Ενώ υπάρχουν και αρκετές έρευνες που εξειδικεύονται στην ανίχνευση φαινομένων τοξικού λόγου που αφορούν ένα συγκεκριμένο είδος τοξικότητας (π.χ. σεξισμός, εθνικιστικά σχόλια). Η διαφοροποίηση της παρούσας μελέτης έγκειται στο γεγονός ότι επικεντρώνεται στην ανίχνευση ενός όχι τόσο προβεβλημένου είδους τοξικού λόγου, του ηλικιακού ρατσισμού. Αν και όχι τόσο ευρέως μελετημένος όσο άλλα είδη διάκρισης, ο ηλικιακός ρατσισμός, σύμφωνα και με τον Διεθνή Οργανισμό Υγείας (World Health Organization) μετρά πολυάριθμες συνέπειες για όσους γίνονται στόχοι του. Συνεπώς, η συμβολή αυτής της έρευνας μπορεί να συνοψιστεί στα εξής σημεία: τη μελέτη ενός ιδιαίτερα επικίνδυνου είδους τοξικού λόγου, που δεν έχει μέχρι στιγμής λάβει την προσοχή που του αρμόζει, τη διερεύνηση ενός συνόλου δεδομένων (προερχόμενου από τους Fraser et al., 2022) που αφορούν τον ηλικιακό ρατσισμό και την επισημείωση ενός μικρού δείγματος από αυτά. Τέλος την παραγωγή αποτελεσμάτων που υποδηλώνουν ότι ένα Σύστημα Ανίχνευσης Τοξικού Λόγου, με ικανοποιητική απόδοση σε πιο γενικευμένες περιπτώσεις τοξικότητας, αδυνατεί να αναγνωρίσει τοξικά μηνύματα που περιέχουν ηλικιακό ρατσισμό, με αποτέλεσμα να κρίνεται χρήσιμη η δημιουργία συστημάτων, εξειδικευμένων στην ανίχνευση του συγκεκριμένου είδους.
The present thesis is concerned with the subject of Toxicity Classification. For this Natural Language Processing task, a Machine Learning Algorithm is trained to identify instances of toxic discourse in given textual data. As toxic discourse can be defined any instance of speech that carries an offensive meaning and serves the purpose of humiliating, insulting or verbally harassing a certain individual or a social group. Such occurrences are very common on social media platforms that can turn from virtual spaces of fruitful communication and exchange of opinions to fields of microaggressions, abuse, and identity attacks. In order to mitigate online toxicity, it is important to construct efficient Toxicity Detection Systems that will yield the ability to recognize both explicit cases of toxic messages and examples of more implicitly conveyed toxicity. Identifying context dependent, indirect toxicity, has been up to now the biggest challenge Toxicity Detection had to confront. There are numerous studies that have opted to train Machine Learning models for Toxicity Detection. The majority of them deployed data in English language as its use is quite prevalent on social media and constitutes the preferred language of communication even for many nonnative speakers. Additionally, there has been significant amount of research focused on detecting specific topic-related forms of online toxicity such as sexism, racism etc. The research conducted for the present thesis aims to differentiate itself from past work, by concentrating on a not so popular yet omnipresent form of online toxicity. Even though understudied, ageism is a manner of abuse that can cause severe consequences on various aspects to those experiencing it, according to the World Health Organization (WHO). Consequently, the contribution of this study, could be summarized in the statements following: bringing attention to a topic that has yet to receive suitable amount of awareness in the field of Toxicity Detection, exploration of a social media extracted corpus, containing age-related stereotypes (by Fraser et al., 2022), and annotation of a small sample from these texts. Finally, the produced results indicate that a generic Toxicity Detection System, recording satisfactory performance on generalized toxicity, faces difficulty in recognizing patterns in ageist messages, suggesting the need for ageism-specified toxicity classifiers.

Λέξη κλειδί :	Ταξινόμηση τοξικού λόγου Ηλικιακός ρατσισμός Μέσα κοινωνικής δικτύωσης Συστήματα ανίχνευσης τοξικού λόγου Toxicity classification Ageism Social media Toxicity detection systems

Διαθέσιμο από :	2023-02-18 12:14:52

Ημερομηνία έκδοσης :	30-12-2022

Ημερομηνία κατάθεσης :	2023-02-18 12:14:52

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Peteinou_2022.pdf

Τύπος: application/pdf

Είσοδος