Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Toxic span detection in online posts

Εναλλακτικός τίτλος :	Ανίχνευση τοξικών τμημάτων σε σχόλια στο διαδίκτυο

Δημιουργός :	Κατσιώλης, Αθανάσιος Katsiolis, Athanasios

Συντελεστής :	Παυλόπουλος, Ιωάννης (Επιβλέπων καθηγητής) Ανδρουτσόπουλος, Ίων (Επιβλέπων καθηγητής) Βασσάλος, Βασίλειος (Εξεταστής) Λουρίδας, Παναγιώτης (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	45p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8134

Περίληψη :	Ο αριθμός των ανθρώπων που αλληλεπιδρά μέσω του Διαδικτύιου σήμερα είναι αρκετά μεγάλος και συνεχώς αυξάνεται.Ένα σημαντικό τμήμα αυτής της αλληλεπίδρασης γίνεται μέσω σχολίων σε πολύ δημοφιλείς ιστοσελίδες, όπως για παράδειγμα δημοφιλείς ειδησεογραφικές ιστοσελίδες ή δημοφιλή μέσα κοινωνικής δικτύωσης. Έχει παρατηρηθεί όμως ως φαινόμενο, η συμπεριφορά των χρηστών αυτών των ιστοσελίδων, δηλαδή τα σχόλια των χρηστών αυτών των ιστοσελίδων, να είναι αγενή ή να μην δίχνουν σεβασμό απέναντι σε άλλους χρήστες. Αναφερόμαστε συνολικά σε τέτοιου είδους συμπεριφόρες με τον όρο “τοξικές”. Ο σκοπός αυτής της διπλωματικής εργασίας είναι η ανίχνευση τοξικότητας σε σχόλια ιστοσελίδων, και συγκεκριμένα η ανίχνευση των τμημάτων των σχολίων τα οποία ευθύνονται για την τοξικότητα του σχολίου. Αποκαλούμε τα τμήματα αυτά με τον όρο "τοξικό τμήμα". Για την ανίχνευση τοξικών τμημάτων σε σχόλια εφαρμό-σαμε δύο ειδών μεθόδους, μια μέθοδο μάθησης με επίβλεψη και δύο μεθόδους μάθησης χωρίς επίβλεψη. Ο πρώτος τύπος μεθόδων που εφαρμόσαμε χαρακτηρίζεται ως μάθηση με επίβλεψη, επειδή κατά τη διάρκεια της εκπαίδευσης του μοντέλου που υλοποιεί την μέθοδο, δίνονται στο μοντέλο τα τοξικά τμήματα του κάθε σχολίου, τα οποία έχουν ανιχνεύσει άνθρωποι επισημειωτές. Αντίθετα ο δεύτερος τύπος μεθόδων δεν χρησιμοποιεί τοξικά τμήματα. Τέλος, με την χρήση του γλωσσικού μοντέλου GPT-2, δημιουργήσαμε τεχνητά δεδομένα με επισημειώσεις, τις οποίες επίσης παρήγαγε το μοντέλο. Στη συνέχεια, χρησιμοποιήσαμε τα τεχνητά δεδομένα με την πιο αποτελεσματική μέθοδο ανίχνευσης τοξικών τμημάτων από τις τρεις μεθόδους που εφαρμόσαμε, για να διαπιστώσουμε εαν η χρήση τεχνητών δεδομένων βοηθά την μέθοδο για καλύτερη ανίχνευση τοξικών τμημάτων. Human interaction through the internet today is substantial, and it is constantly increasing. A major means of that interaction are comments in prominent websites, e.g. popular news portals or social media platforms. Sadly, the behaviour of users of these websites frequently becomes rude or disrespectful, preventing the regular operation of the websites. We refer to these behaviours, namely to the comments of these users, as "toxic". The aim of this thesis is to identify toxicity in comments, and in particular to identify parts of these comments, to which toxicity can be attributed to. We call these parts of comments toxic spans. To that end, we apply a supervised and two unsupervised methods and compare their effectiveness. We refer to the first case as supervised, because during the training of the model that implements the method, human annotated toxic spans are provided to the model, in contrast with the latter case. Finally, we used the GPT-2 language model to generate artificial comments with toxic spans also generated by the model. We used the artificial data with the most effective method, to analyse whether they improve the performance of the method.

Περίληψη :

Ο αριθμός των ανθρώπων που αλληλεπιδρά μέσω του Διαδικτύιου σήμερα είναι αρκετά μεγάλος και συνεχώς αυξάνεται.Ένα σημαντικό τμήμα αυτής της αλληλεπίδρασης γίνεται μέσω σχολίων σε πολύ δημοφιλείς ιστοσελίδες, όπως για παράδειγμα δημοφιλείς ειδησεογραφικές ιστοσελίδες ή δημοφιλή μέσα κοινωνικής δικτύωσης. Έχει παρατηρηθεί όμως ως φαινόμενο, η συμπεριφορά των χρηστών αυτών των ιστοσελίδων, δηλαδή τα σχόλια των χρηστών αυτών των ιστοσελίδων, να είναι αγενή ή να μην δίχνουν σεβασμό απέναντι σε άλλους χρήστες. Αναφερόμαστε συνολικά σε τέτοιου είδους συμπεριφόρες με τον όρο “τοξικές”. Ο σκοπός αυτής της διπλωματικής εργασίας είναι η ανίχνευση τοξικότητας σε σχόλια ιστοσελίδων, και συγκεκριμένα η ανίχνευση των τμημάτων των σχολίων τα οποία ευθύνονται για την τοξικότητα του σχολίου. Αποκαλούμε τα τμήματα αυτά με τον όρο "τοξικό τμήμα". Για την ανίχνευση τοξικών τμημάτων σε σχόλια εφαρμό-σαμε δύο ειδών μεθόδους, μια μέθοδο μάθησης με επίβλεψη και δύο μεθόδους μάθησης χωρίς επίβλεψη. Ο πρώτος τύπος μεθόδων που εφαρμόσαμε χαρακτηρίζεται ως μάθηση με επίβλεψη, επειδή κατά τη διάρκεια της εκπαίδευσης του μοντέλου που υλοποιεί την μέθοδο, δίνονται στο μοντέλο τα τοξικά τμήματα του κάθε σχολίου, τα οποία έχουν ανιχνεύσει άνθρωποι επισημειωτές. Αντίθετα ο δεύτερος τύπος μεθόδων δεν χρησιμοποιεί τοξικά τμήματα. Τέλος, με την χρήση του γλωσσικού μοντέλου GPT-2, δημιουργήσαμε τεχνητά δεδομένα με επισημειώσεις, τις οποίες επίσης παρήγαγε το μοντέλο. Στη συνέχεια, χρησιμοποιήσαμε τα τεχνητά δεδομένα με την πιο αποτελεσματική μέθοδο ανίχνευσης τοξικών τμημάτων από τις τρεις μεθόδους που εφαρμόσαμε, για να διαπιστώσουμε εαν η χρήση τεχνητών δεδομένων βοηθά την μέθοδο για καλύτερη ανίχνευση τοξικών τμημάτων.
Human interaction through the internet today is substantial, and it is constantly increasing. A major means of that interaction are comments in prominent websites, e.g. popular news portals or social media platforms. Sadly, the behaviour of users of these websites frequently becomes rude or disrespectful, preventing the regular operation of the websites. We refer to these behaviours, namely to the comments of these users, as "toxic". The aim of this thesis is to identify toxicity in comments, and in particular to identify parts of these comments, to which toxicity can be attributed to. We call these parts of comments toxic spans. To that end, we apply a supervised and two unsupervised methods and compare their effectiveness. We refer to the first case as supervised, because during the training of the model that implements the method, human annotated toxic spans are provided to the model, in contrast with the latter case. Finally, we used the GPT-2 language model to generate artificial comments with toxic spans also generated by the model. We used the artificial data with the most effective method, to analyse whether they improve the performance of the method.

Λέξη κλειδί :	Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Τοξικότητα Natural Language Processing (NLP) Deep learning Toxicity

Διαθέσιμο από :	2020-12-02 17:30:33

Ημερομηνία έκδοσης :	13-11-2020

Ημερομηνία κατάθεσης :	2020-12-02 17:30:33

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Katsiolis_2020.pdf

Τύπος: application/pdf

Είσοδος