Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Error detection in english and greek texts written by foreign learners

Εναλλακτικός τίτλος :	Εντοπισμός λαθών σε αγγλικά και ελληνικά κείμενα γραμμένα από ξένους μαθητές

Δημιουργός :	Στρουμπούλη, Ελευθερία Stroumpouli, Eleftheria

Συντελεστής :	Παυλόπουλος, Ιωάννης (Επιβλέπων καθηγητής) Ανδρουτσόπουλος, Ίων (Εξεταστής) Λουρίδας, Παναγιώτης (Εξεταστής) Athens University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	44p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8125

Περίληψη :	Η παρούσα Διπλωματική Εργασία στοχεύει στη δημιουργία ενός συστήματος που έχει ως σκοπό τον εντοπισμό αγγλικών προτάσεων με γραμματικά λάθη, γραμμένες από μαθητές της αγγλικής ως ξένης γλώσσας, και τον εντοπισμό γραμματικών, συντακτικών και εννοιολογικών λαθών σε αντίστοιχες ελληνικές προτάσεις. Ο στόχος αυτής της εργασίας χωρίζεται σε δύο υπο-στόχους: 1) ο προσδιορισμός μιας δοθείσας πρότασης εάν είναι σωστή ή λανθασμένη, 2) η κατασκευή ενός ελληνικού κειμένου με τεχνητά λάθη. Για το δεύτερο στόχο, μελετήθηκαν πραγματικά κείμενα γραμμένα από πρόσφυγες και μετανάστες, καθώς και γλωσσικές ασκήσεις που περιείχαν εσκεμμένα λάθη, προκειμένου να αντληθούν τα πιο συχνά λάθη που θα προστεθούν στο νέο κείμενο. Αυτά τα λάθη προστέθηκαν ακολουθώντας έναν αλγόριθμο, με μία συγκεκριμένη πιθανότητα για όλα, με στόχο να μην εφαρμοστούν σε όλες τις περιστάσεις ανεξαιρέτως, έτσι ώστε το αποτέλεσμα να φαίνεται πιο ρεαλιστικό. Για τον πρώτο στόχο, μετά την κατάλληλη προεπεξεργασία των δεδομένων, εφαρμόστηκαν τρεις ταξινομητές και ένα νευρωνικό δίκτυο. Οι ταξινομητές Logistic Regression, Support Vector Machine και Decision Tree πέτυχαν τελευταίας τεχνολογίας (state-of-the-art) αποτελέσματα στα αγγλικά κείμενα, ενώ στις ελληνικές προτάσεις, που είναι εντοπισμένες με λάθη, χρειάζονται περαιτέρω συντονισμό. Σχετικά με το νευρωνικό μοντέλο, το LSTM RNN, πέτυχε χαμηλότερες βαθμολογίες από τους ταξινομητές στα αγγλικά κείμενα και αρκετά καλές βαθμολογίες στα ελληνικά κείμενα. This thesis aims to build a system to tackle the task of detecting sentences with grammatical errors written by learners of English as a foreign language and grammatical, syntactic and semantic errors in corresponding Greek sentences. The goals of this task is to: 1) identify if the given sentence is correct or not, 2) construct a Greek corpus with artificial errors. For the second goal, real texts written by refugees and immigrants were studied as well as language exercises with deliberate mistakes in order to draw the most common mistakes that will be added to the new corpus. These mistakes were added following an algorithm, with a specific probability for all the errors, in order not to be applied in all circumstances without exception, so that the result looks more realistic. For the first goal, after the proper preprocessing of the data, three classifiers and a neural network were implemented. Logistic Regression, Support Vector Machine and Decision Tree classifiers achieved state-of-the-art scores on the English texts, while on the Greek sentence with error detected need further tuning. About the neural model (an LSTM RNN), achieved lower scores than the classifiers on the English texts and fairly good scores on the Greek texts.

Περίληψη :

Η παρούσα Διπλωματική Εργασία στοχεύει στη δημιουργία ενός συστήματος που έχει ως σκοπό τον εντοπισμό αγγλικών προτάσεων με γραμματικά λάθη, γραμμένες από μαθητές της αγγλικής ως ξένης γλώσσας, και τον εντοπισμό γραμματικών, συντακτικών και εννοιολογικών λαθών σε αντίστοιχες ελληνικές προτάσεις. Ο στόχος αυτής της εργασίας χωρίζεται σε δύο υπο-στόχους: 1) ο προσδιορισμός μιας δοθείσας πρότασης εάν είναι σωστή ή λανθασμένη, 2) η κατασκευή ενός ελληνικού κειμένου με τεχνητά λάθη. Για το δεύτερο στόχο, μελετήθηκαν πραγματικά κείμενα γραμμένα από πρόσφυγες και μετανάστες, καθώς και γλωσσικές ασκήσεις που περιείχαν εσκεμμένα λάθη, προκειμένου να αντληθούν τα πιο συχνά λάθη που θα προστεθούν στο νέο κείμενο. Αυτά τα λάθη προστέθηκαν ακολουθώντας έναν αλγόριθμο, με μία συγκεκριμένη πιθανότητα για όλα, με στόχο να μην εφαρμοστούν σε όλες τις περιστάσεις ανεξαιρέτως, έτσι ώστε το αποτέλεσμα να φαίνεται πιο ρεαλιστικό. Για τον πρώτο στόχο, μετά την κατάλληλη προεπεξεργασία των δεδομένων, εφαρμόστηκαν τρεις ταξινομητές και ένα νευρωνικό δίκτυο. Οι ταξινομητές Logistic Regression, Support Vector Machine και Decision Tree πέτυχαν τελευταίας τεχνολογίας (state-of-the-art) αποτελέσματα στα αγγλικά κείμενα, ενώ στις ελληνικές προτάσεις, που είναι εντοπισμένες με λάθη, χρειάζονται περαιτέρω συντονισμό. Σχετικά με το νευρωνικό μοντέλο, το LSTM RNN, πέτυχε χαμηλότερες βαθμολογίες από τους ταξινομητές στα αγγλικά κείμενα και αρκετά καλές βαθμολογίες στα ελληνικά κείμενα.
This thesis aims to build a system to tackle the task of detecting sentences with grammatical errors written by learners of English as a foreign language and grammatical, syntactic and semantic errors in corresponding Greek sentences. The goals of this task is to: 1) identify if the given sentence is correct or not, 2) construct a Greek corpus with artificial errors. For the second goal, real texts written by refugees and immigrants were studied as well as language exercises with deliberate mistakes in order to draw the most common mistakes that will be added to the new corpus. These mistakes were added following an algorithm, with a specific probability for all the errors, in order not to be applied in all circumstances without exception, so that the result looks more realistic. For the first goal, after the proper preprocessing of the data, three classifiers and a neural network were implemented. Logistic Regression, Support Vector Machine and Decision Tree classifiers achieved state-of-the-art scores on the English texts, while on the Greek sentence with error detected need further tuning. About the neural model (an LSTM RNN), achieved lower scores than the classifiers on the English texts and fairly good scores on the Greek texts.

Λέξη κλειδί :	Επεξεργασία φυσικής γλώσσας Δυαδική ταξινόμηση Ανίχνευση σφαλμάτων Νευρωνικά δίκτυα Κείμενα γραμμένα από ξένους μαθητές Natural Language Processing (NLP) Binary classification Error detection Neural Networks (NN) Texts written by foreign learners Neural language models Long Short-Term Memory (LSTM)

Λέξη κλειδί :

Επεξεργασία φυσικής γλώσσας
Δυαδική ταξινόμηση
Ανίχνευση σφαλμάτων
Νευρωνικά δίκτυα
Κείμενα γραμμένα από ξένους μαθητές
Natural Language Processing (NLP)
Binary classification
Error detection
Neural Networks (NN)
Texts written by foreign learners
Neural language models Long Short-Term Memory (LSTM)

Διαθέσιμο από :	2020-11-30 17:02:23

Ημερομηνία έκδοσης :	30-10-2020

Ημερομηνία κατάθεσης :	2020-11-30 17:02:23

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Stroumpouli_2020.pdf

Τύπος: application/pdf

Είσοδος