Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Tagging in social media texts: a deep learning approach for Greek language data on social web

Εναλλακτικός τίτλος :	Ταξινόμηση κειμένων κοινωνικών μέσων: μια προσέγγιση βαθιάς μάθησης σε δεδομένα ελληνικής γλώσσας στον κοινωνικό ιστό

Δημιουργός :	Μυλωνά, Ειρήνη Mylona, Eirini

Συντελεστής :	Louridas, Panagiotis (Επιβλέπων καθηγητής) Vassalos, Vasilios (Εξεταστής) Androutsopoulos, Ion (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	94p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=11072

Περίληψη :	Στο πλαίσιο αυτής της διατριβής, επικεντρωθήκαμε στην αντιμετώπιση ενός έργου ταξινόμησης με τη χρήση δύο διαφορετικών συνόλων δεδομένων, συγκεκριμένα των Nestle και Cosmote, τα οποία δόθηκαν από την εταιρεία Palowise. Αυτά τα σύνολα δεδομένων περιλάμβαναν δεδομένα ελληνικού κειμένου που προέρχονταν από τα δίκτυα κοινωνικής δικτύωσης, κυρίως από το Twitter, καλύπτοντας ένα ευρύ φάσμα θεμάτων που εκτείνονται από τις τηλεπικοινωνίες έως την ενέργεια, τα τρόφιμα, τα ποτά κ.λπ. Κύριος σκοπός ήταν η αυτοματοποίηση της διαδικασίας επισημείωσης για την εταιρεία, με συγκεκριμένο στόχο την επίτευξη μιας οικονομικά αποδοτικής και ακριβούς πρόβλεψης της συμπεριφοράς, των προτιμήσεων και των αναγκών των πελατών. Η πολυπλοκότητα του χειρισμού αυτών των κειμένων προκύπτει από την αντισυμβατική δομή της γλώσσας στα μέσα κοινωνικής δικτύωσης, η οποία χαρακτηρίζεται από ασυνέπεια, συντακτικά, γραμματικά και ορθογραφικά λάθη. Επιπλέον, και τα δύο σύνολα δεδομένων παρουσίαζαν αξιοσημείωτη ανισοκατανομή κλάσεων. Ύστερα από αξιοσημείωτες προσπάθειες για τον μετριασμό αυτού του ζητήματος, στο σύνολο δεδομένων της Cosmote πετύχαμε μια σχετικά ισορροπημένη κατανομή. Από την άλλη πλευρά, το σύνολο δεδομένων της Nestle, παρά τις όλες προσπάθειες, παρέμεινε άνισα κατανεμημένο, αν και σε μικρότερο βαθμό από ότι στα ακατέργαστα δεδομένα. Ο πρωταρχικός στόχος της διατριβής είναι ο σχεδιασμός και η εφαρμογή τεχνικών βαθιάς μάθησης (Deep Learning) για την ενίσχυση της απόδοσης ταξινόμησης. Τα βασικά μοντέλα περιλάμβαναν καθιερωμένες προσεγγίσεις, όπως το Multi-Layer Perceptron (MLP) και η Bidirectional Gated Recurrent Unit (BiGRU). Επιπλέον, η διερεύνηση επεκτάθηκε σε προηγμένα προ-εκπαιδευμένα μοντέλα διαγλωσσικών μετασχηματιστών (transformers), όπως το Bidirectional Encoder Representations from Transformers (BERT), που περιλαμβάνει τόσο την πολύγλωσση (M-BERT) όσο και την ελληνική έκδοση (GREEK-BERT) καθώς και το GreekSocialBERT, μια εμπλουτισμένη, με τη χρήση ελληνικών κειμένων κοινωνικών μέσων, έκδοση του GREEK-BERT. Επίσης, χρησιμοποιήθηκαν μοντέλα αρχιτεκτονικής RoBERTa όπως το PaloBERT που εκπαιδεύτηκε από την αρχή με ελληνικά κείμενα κοινωνικών μέσων και το XLM-RoBERTa, ένα πολύγλωσσο μοντέλο που εκπαιδεύτηκε σε εκατό γλώσσες, συμπεριλαμβανομένης της ελληνικής. Σε αυτή τη διατριβή επίσης, ενσωματώθηκε η μέθοδος ensemble voting, σύμφωνα με την οποία επιλέχθηκε το μοντέλο με το υψηλότερο F1 Score, που προέκυψε από την αρχική προσέγγιση, και δημιουργήθηκαν αντίγραφά του. Αυτή η στρατηγική προσέγγιση συνέβαλε στη βελτίωση της παρατηρούμενης μετρικής (F1 Score) τόσο για τo σύνολo δεδομένων Nestle όσο και για τo σύνολo δεδομένων Cosmote. In the scope of this thesis, our primary focus revolved around addressing a classification task utilizing two distinct datasets, namely Nestle and Cosmote, generously provided by Palowise company. These datasets comprised Greek social media text data sourced predominantly from Twitter, covering a wide range of topics spanning from telecommunications to energy, food, beverages, etc. The overarching goal was to automate the tagging process for the company, with the specific objective of achieving a cost-effective and accurate prediction of customer behavior, preferences, and needs. The complexity of handling these texts arises from the unconventional structure of language in social media, marked by inconsistency, and syntactical, grammatical, and spelling errors. Additionally, both datasets exhibited a notable class imbalance. After considerable efforts were made to mitigate this issue, the Cosmote dataset achieved a relatively balanced distribution. On the other hand, the Nestle dataset, despite mitigation attempts, remained imbalanced, albeit to a lesser extent than in the raw data. The primary aim of the thesis centered on the design and implementation of deep learning techniques to enhance classification performance. Baseline models encompass established approaches, including the Multi-Layer Perceptron (MLP) and the Bidirectional Gated Recurrent Unit (BiGRU). Moreover, the exploration extended to advanced pre-trained transformer models such as Bidirectional Encoder Representations from Transformers (BERT), encompassing both the multilingual (M-BERT) and the Greek version (GREEK-BERT), as well as GreekSocialBERT, an enriched version of GREEK-BERT using Greek social media texts. Additionally, RoBERTa architecture models were used, such as PaloBERT, which was trained from scratch with Greek social media texts, and XLM-RoBERTa, a multilingual model trained in a hundred languages, including Greek. The thesis also incorporated the ensemble voting method, whereby the model with the highest F1 Score, derived from the initial approach, was selected, and copies of it were created. This strategic approach contributed to the enhancement of F1 scores for both the Nestle and Cosmote datasets.

Περίληψη :

Στο πλαίσιο αυτής της διατριβής, επικεντρωθήκαμε στην αντιμετώπιση ενός έργου ταξινόμησης με τη χρήση δύο διαφορετικών συνόλων δεδομένων, συγκεκριμένα των Nestle και Cosmote, τα οποία δόθηκαν από την εταιρεία Palowise. Αυτά τα σύνολα δεδομένων περιλάμβαναν δεδομένα ελληνικού κειμένου που προέρχονταν από τα δίκτυα κοινωνικής δικτύωσης, κυρίως από το Twitter, καλύπτοντας ένα ευρύ φάσμα θεμάτων που εκτείνονται από τις τηλεπικοινωνίες έως την ενέργεια, τα τρόφιμα, τα ποτά κ.λπ. Κύριος σκοπός ήταν η αυτοματοποίηση της διαδικασίας επισημείωσης για την εταιρεία, με συγκεκριμένο στόχο την επίτευξη μιας οικονομικά αποδοτικής και ακριβούς πρόβλεψης της συμπεριφοράς, των προτιμήσεων και των αναγκών των πελατών. Η πολυπλοκότητα του χειρισμού αυτών των κειμένων προκύπτει από την αντισυμβατική δομή της γλώσσας στα μέσα κοινωνικής δικτύωσης, η οποία χαρακτηρίζεται από ασυνέπεια, συντακτικά, γραμματικά και ορθογραφικά λάθη. Επιπλέον, και τα δύο σύνολα δεδομένων παρουσίαζαν αξιοσημείωτη ανισοκατανομή κλάσεων. Ύστερα από αξιοσημείωτες προσπάθειες για τον μετριασμό αυτού του ζητήματος, στο σύνολο δεδομένων της Cosmote πετύχαμε μια σχετικά ισορροπημένη κατανομή. Από την άλλη πλευρά, το σύνολο δεδομένων της Nestle, παρά τις όλες προσπάθειες, παρέμεινε άνισα κατανεμημένο, αν και σε μικρότερο βαθμό από ότι στα ακατέργαστα δεδομένα. Ο πρωταρχικός στόχος της διατριβής είναι ο σχεδιασμός και η εφαρμογή τεχνικών βαθιάς μάθησης (Deep Learning) για την ενίσχυση της απόδοσης ταξινόμησης. Τα βασικά μοντέλα περιλάμβαναν καθιερωμένες προσεγγίσεις, όπως το Multi-Layer Perceptron (MLP) και η Bidirectional Gated Recurrent Unit (BiGRU). Επιπλέον, η διερεύνηση επεκτάθηκε σε προηγμένα προ-εκπαιδευμένα μοντέλα διαγλωσσικών μετασχηματιστών (transformers), όπως το Bidirectional Encoder Representations from Transformers (BERT), που περιλαμβάνει τόσο την πολύγλωσση (M-BERT) όσο και την ελληνική έκδοση (GREEK-BERT) καθώς και το GreekSocialBERT, μια εμπλουτισμένη, με τη χρήση ελληνικών κειμένων κοινωνικών μέσων, έκδοση του GREEK-BERT. Επίσης, χρησιμοποιήθηκαν μοντέλα αρχιτεκτονικής RoBERTa όπως το PaloBERT που εκπαιδεύτηκε από την αρχή με ελληνικά κείμενα κοινωνικών μέσων και το XLM-RoBERTa, ένα πολύγλωσσο μοντέλο που εκπαιδεύτηκε σε εκατό γλώσσες, συμπεριλαμβανομένης της ελληνικής. Σε αυτή τη διατριβή επίσης, ενσωματώθηκε η μέθοδος ensemble voting, σύμφωνα με την οποία επιλέχθηκε το μοντέλο με το υψηλότερο F1 Score, που προέκυψε από την αρχική προσέγγιση, και δημιουργήθηκαν αντίγραφά του. Αυτή η στρατηγική προσέγγιση συνέβαλε στη βελτίωση της παρατηρούμενης μετρικής (F1 Score) τόσο για τo σύνολo δεδομένων Nestle όσο και για τo σύνολo δεδομένων Cosmote.
In the scope of this thesis, our primary focus revolved around addressing a classification task utilizing two distinct datasets, namely Nestle and Cosmote, generously provided by Palowise company. These datasets comprised Greek social media text data sourced predominantly from Twitter, covering a wide range of topics spanning from telecommunications to energy, food, beverages, etc. The overarching goal was to automate the tagging process for the company, with the specific objective of achieving a cost-effective and accurate prediction of customer behavior, preferences, and needs. The complexity of handling these texts arises from the unconventional structure of language in social media, marked by inconsistency, and syntactical, grammatical, and spelling errors. Additionally, both datasets exhibited a notable class imbalance. After considerable efforts were made to mitigate this issue, the Cosmote dataset achieved a relatively balanced distribution. On the other hand, the Nestle dataset, despite mitigation attempts, remained imbalanced, albeit to a lesser extent than in the raw data. The primary aim of the thesis centered on the design and implementation of deep learning techniques to enhance classification performance. Baseline models encompass established approaches, including the Multi-Layer Perceptron (MLP) and the Bidirectional Gated Recurrent Unit (BiGRU). Moreover, the exploration extended to advanced pre-trained transformer models such as Bidirectional Encoder Representations from Transformers (BERT), encompassing both the multilingual (M-BERT) and the Greek version (GREEK-BERT), as well as GreekSocialBERT, an enriched version of GREEK-BERT using Greek social media texts. Additionally, RoBERTa architecture models were used, such as PaloBERT, which was trained from scratch with Greek social media texts, and XLM-RoBERTa, a multilingual model trained in a hundred languages, including Greek. The thesis also incorporated the ensemble voting method, whereby the model with the highest F1 Score, derived from the initial approach, was selected, and copies of it were created. This strategic approach contributed to the enhancement of F1 scores for both the Nestle and Cosmote datasets.

Λέξη κλειδί :	Βαθιά μάθηση Επεξεργασία φυσικής γλώσσας Ταξινόμηση κειμένου Μετασχηματιστές Eκμάθηση συνόλου Deep learning Natural Language Processing (NLP) Text classification Transformers Ensemble learning

Διαθέσιμο από :	2024-03-13 20:30:55

Ημερομηνία έκδοσης :	07-03-2024

Ημερομηνία κατάθεσης :	2024-03-13 20:30:55

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Mylona_2024.pdf

Τύπος: application/pdf

Είσοδος