Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Text classification to automatically detect hazards in foods from official announcements and social media

Εναλλακτικός τίτλος :	Ταξινόμηση κειμένου για αυτόματη ανίχνευση κινδύνων στα τρόφιμα από επίσημες ανακοινώσεις και μέσα κοινωνικής δικτύωσης

Δημιουργός :	Papadatos, Emmanouil Παπαδάτος, Εμμανουήλ

Συντελεστής :	Pavlopoulos, Ioannis (Επιβλέπων καθηγητής) Androutsopoulos, Ion (Εξεταστής) Vassalos, Vasilios (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	71p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9155

Περίληψη :	A food recall can be described as the actions taken by a food producer or organization to remove a product off the market because there is reason to believe that it may cause consumers to become ill. This thesis will focus on developing and training text classifiers with data from food recalls which will subsequently be used to produce labels for unlabeled food recalls. The goal is to apply the trained classifier on a set of more than 1000 announcements about product recalls. Each food recall contains the official announcement in textual form and the specific hazard and product types. In the first part we classify each food recall on the specific product and hazard types. For this task, we employed two machine learning models, a Random Forest (RF) and a Support Vector Classifier (SVC), and a scaled cross lingual sentence encoder, the XLM-Roberta (XLMR). For the second part of this thesis, we used the best performing model from the classification part to produce labels for unlabeled food recall incidents, in order to provide statistics about the most frequently recalled products and most frequent hazards. Η παρoύσα διπλωματική εργασία επικεντρώνεται στην ανάπτυξη και εκπαίδευση μοντέλων μηχανικής μάθησης, χρησιμοποιώντας δεδομένα κειμένου από ανακλήσεις προϊόντων, που στη συνέχεια θα χρησιμοποιθούν για να επισημειώσουν ανακλήσεις προϊόντων που δεν έχουν ήδη επισημειωθεί από κάποιον ειδικό, με τον ακριβή κίνδυνο και προϊόν. Μια ανάκληση προϊόντος ορίζεται ως η διαδικασία που αναλαμβάνει ένας έμπορος φαγητών ή ένας οργανισμός υγείας, προκειμένου να αφαιρεθούν από την αγορά πιθανώς επιβλαβή, για την υγεία του καταναλωτή, προϊόντα. Ο πρώτος στόχος μας είναι να χρησιμοποιήσουμε τα μοντέλα μηχανικής μάθησης σε παραπάνω από 1000 ανακοινώσεις ανάκλησης προϊόντων. Κάθε ανάκληση, εμπεριέχει την επίσημη ανακοίνωση σε μορφή κειμένου, όπως επίσης και τον ακριβή κίνδυνο και προϊόν. Για αυτό το σκοπό, χρησιμοποιήσαμε δύο μοντέλα μηχανικής μάθησης , έναν Random Forest (RF) και έναν Support Vector Classifier (SVC), καθώς επίσης και έναν κλιμακωτό διαγλωσσικό κωδικοποιητή προτάσεων, γνωστό και ως XLM-Roberta (XLMR). Για το δεύτερο κομμάτι της εργασίας, χρησιμοποιήσαμε το καλύτερο μοντέλο του πρώτου κομματιού, προκειμένου να επισημειώσουμε όσο το δυνατόν καλύτερα, ανακλήσεις προϊόντων για τις οποίες δεν είχαμε πρώτερη γνωστή επισημείωση και στην συνέχεια να αναλύσουμε τα πιο συχνά ανακλημένα προϊόντα και τους πιο συχνούς κινδύνους .

Περίληψη :

A food recall can be described as the actions taken by a food producer or organization to remove a product off the market because there is reason to believe that it may cause consumers to become ill. This thesis will focus on developing and training text classifiers with data from food recalls which will subsequently be used to produce labels for unlabeled food recalls. The goal is to apply the trained classifier on a set of more than 1000 announcements about product recalls. Each food recall contains the official announcement in textual form and the specific hazard and product types. In the first part we classify each food recall on the specific product and hazard types. For this task, we employed two machine learning models, a Random Forest (RF) and a Support Vector Classifier (SVC), and a scaled cross lingual sentence encoder, the XLM-Roberta (XLMR). For the second part of this thesis, we used the best performing model from the classification part to produce labels for unlabeled food recall incidents, in order to provide statistics about the most frequently recalled products and most frequent hazards.
Η παρoύσα διπλωματική εργασία επικεντρώνεται στην ανάπτυξη και εκπαίδευση μοντέλων μηχανικής μάθησης, χρησιμοποιώντας δεδομένα κειμένου από ανακλήσεις προϊόντων, που στη συνέχεια θα χρησιμοποιθούν για να επισημειώσουν ανακλήσεις προϊόντων που δεν έχουν ήδη επισημειωθεί από κάποιον ειδικό, με τον ακριβή κίνδυνο και προϊόν. Μια ανάκληση προϊόντος ορίζεται ως η διαδικασία που αναλαμβάνει ένας έμπορος φαγητών ή ένας οργανισμός υγείας, προκειμένου να αφαιρεθούν από την αγορά πιθανώς επιβλαβή, για την υγεία του καταναλωτή, προϊόντα. Ο πρώτος στόχος μας είναι να χρησιμοποιήσουμε τα μοντέλα μηχανικής μάθησης σε παραπάνω από 1000 ανακοινώσεις ανάκλησης προϊόντων. Κάθε ανάκληση, εμπεριέχει την επίσημη ανακοίνωση σε μορφή κειμένου, όπως επίσης και τον ακριβή κίνδυνο και προϊόν. Για αυτό το σκοπό, χρησιμοποιήσαμε δύο μοντέλα μηχανικής μάθησης , έναν Random Forest (RF) και έναν Support Vector Classifier (SVC), καθώς επίσης και έναν κλιμακωτό διαγλωσσικό κωδικοποιητή προτάσεων, γνωστό και ως XLM-Roberta (XLMR). Για το δεύτερο κομμάτι της εργασίας, χρησιμοποιήσαμε το καλύτερο μοντέλο του πρώτου κομματιού, προκειμένου να επισημειώσουμε όσο το δυνατόν καλύτερα, ανακλήσεις προϊόντων για τις οποίες δεν είχαμε πρώτερη γνωστή επισημείωση και στην συνέχεια να αναλύσουμε τα πιο συχνά ανακλημένα προϊόντα και τους πιο συχνούς κινδύνους .

Λέξη κλειδί :	Ανάλυση κειμένου Μηχανική μάθηση Επεξεργασία φυσικής γλώσσας Βαθιά μάθηση Νευρωνικά δίκτυα NLP Machine learning Text analytics Deep learning Neural networks

Διαθέσιμο από :	2022-02-09 22:29:28

Ημερομηνία έκδοσης :	12/03/2021

Ημερομηνία κατάθεσης :	2022-02-09 22:29:28

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Papadatos_2021.pdf

Τύπος: application/pdf

Είσοδος