AUEB Library - Digital Repository

PYXIDA Institutional Repository
and Digital Library

Username
Password

Collections :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Title :	Μελέτη για τη χρήση μεγάλων ερωτημάτων κατά την ανάκτηση δεδομένων

Creator :	Σιγάλας, Ευάγγελος

Contributor :	Καλαμπούκης, Θεόδωρος (Επιβλέπων καθηγητής) Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής (Degree granting institution)

Type :	Text

Extent :	51σ.

Language :	el

Identifier :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=7352

Abstract :	Στα πλαίσια της διατριβής αυτής διερευνήθηκαν διάφορες προσεγγίσεις για την αντιμετώπιση της ανάκτησης πληροφοριών πολύ μεγάλων ερωτημάτων.Για το σκοπό αυτό στα πλαίσια της διατριβής δημιουργήθηκε ένα σύνολο ελέγχου (benchmark) με μεγάλα ερωτήματα των οποίων η αξιολόγηση έγινε χειρωνακτικά από ειδικούς. Αν και το σύνολο των ερωτημάτων είναι μικρό, από ό,τι φαίνεται αυτό δεν επηρέασε τη διαδικασία εξαγωγής γενικών συμπερασμάτων πάνω στο υπό εξέταση πρόβλημα. Σημειωτέων ότι η δημιουργία ενός benchmark για αξιολόγηση της ανάκτησης είναι μια δύσκολή και χρονοβόρα διαδικασία. Από τις προσεγγίσεις που χρησιμοποιήθηκαν, συμπεραίνουμε πως η χρήση της ΒΜ25 του Elasticsearch ανταποκρίνεται ικανοποιητικά στην υποβολή ερωτημάτων-κειμένων αποδίδοντας τα υψηλότερα σκορ σε σύγκριση με όλες τις άλλες μεθόδους που χρησιμοποιήθηκαν στα πλαίσια της διατριβής.Στην περίπτωση MLT ερωτημάτων (More Like This) η επίδοση ελαττώνεται και αυτό οφείλεται στο γεγονός ότι η προσέγγιση δεν λαμβάνει υπόψη την συχνότητα εμφάνισης των όρων στα ερωτήματα ενώ στην απλή περίπτωση αξιολόγησης με BM25 ή TFIDF λαμβάνεται υπόψη η συχνότητα αυτή. Αυτός βέβαια ήταν και ο λόγος της βελτίωσης των αποτελεσμάτων με πιο «αυστηρές» παραμέτρους όπου επιλέγονται όροι με υψηλή συχνότητα εμφάνισης. Ωστόσο στη περίπτωση αυτή ο αλγόριθμος δεν είναι εύρωστος και επιλογή των βέλτιστων παραμέτρων είναι μια δύσκολη ως αδύνατη διεργασία.Η ιδέα της χρήσης φράσεων βασίστηκε στην ιδιότητα της ελάττωσης του θορύβου που ενυπάρχει στα μεγάλα ερωτήματα. Πράγματι στη προσέγγιση αυτή φαίνεται ότι η χρήση του 90% των φράσεων του ερωτήματος δίνουν την καλύτερη επίδοση το οποίο σημαίνει ότι τελευταίο 10% των λιγότερο σημαντικών φράσεων, αποτελούν θόρυβο και χειροτερεύουν τα αποτελέσματα. Τα αποτελέσματα των φράσεων έδειξαν την ίδια περίπου επίδοση με τα αποτελέσματα της κλασσικής ανάκτησης με BM25 ή TFIDF. Με βάση τα αποτελέσματα αυτά και δεδομένου ότι οι φράσεις περιλαμβάνουν μόλις λίγες λέξεις (3-4 λέξεις) το επόμενο βήμα ήταν η διερεύνηση της επίδοσης των φράσεων με τη χρήση σημασιολογικών διανυσμάτων. As part of this thesis, we explore various approaches regarding the issue of retrieving information by using large queries. To this end, we developed a benchmark of large queries which were evaluated by experts. Although the set of queries is small, it did not appear to affect the process of drawing general conclusions on the problem we face. It is noted that establishing a criterion for evaluating retrieval methods is a difficult and time-consuming process. From the approaches we tested, we conclude that the use of Elasticsearch BM25 responds well to document-queries providing the highest rates compared to all other methods used in the paper. In the case of MLT queries the performance is reduced due to the fact that the approach does not take into account the term-frequency of queries while in simple evaluations with BM25 or TF-IDF term-frequency is taken into account. For the same reason, results were improved when tests which used “strict” parameters took place. However, selecting the optimal parameters for MLT queries remain a difficult and weak process. The idea of using phrases as parameter is based on the property of reducing the noise that exists in large queries. Indeed, by implementing this approach, the use of 90% of the query phrases seems to perform best, which means that the last 10% of the less important phrases are noisy and have reduce performance. Phrase-results showed a similar performance the classic approaches using the BM25 or TFIDF weighting schemes. Based on these results and since the phrases we used contained only a few words (3-4 words), the next step was to investigate the performance of the phrases using semantic vectors. The outcome of this process does not confirm our initial estimates although there is much room for improvement and further exploration of the approach.

Abstract :

Στα πλαίσια της διατριβής αυτής διερευνήθηκαν διάφορες προσεγγίσεις για την αντιμετώπιση της ανάκτησης πληροφοριών πολύ μεγάλων ερωτημάτων.Για το σκοπό αυτό στα πλαίσια της διατριβής δημιουργήθηκε ένα σύνολο ελέγχου (benchmark) με μεγάλα ερωτήματα των οποίων η αξιολόγηση έγινε χειρωνακτικά από ειδικούς. Αν και το σύνολο των ερωτημάτων είναι μικρό, από ό,τι φαίνεται αυτό δεν επηρέασε τη διαδικασία εξαγωγής γενικών συμπερασμάτων πάνω στο υπό εξέταση πρόβλημα. Σημειωτέων ότι η δημιουργία ενός benchmark για αξιολόγηση της ανάκτησης είναι μια δύσκολή και χρονοβόρα διαδικασία. Από τις προσεγγίσεις που χρησιμοποιήθηκαν, συμπεραίνουμε πως η χρήση της ΒΜ25 του Elasticsearch ανταποκρίνεται ικανοποιητικά στην υποβολή ερωτημάτων-κειμένων αποδίδοντας τα υψηλότερα σκορ σε σύγκριση με όλες τις άλλες μεθόδους που χρησιμοποιήθηκαν στα πλαίσια της διατριβής.Στην περίπτωση MLT ερωτημάτων (More Like This) η επίδοση ελαττώνεται και αυτό οφείλεται στο γεγονός ότι η προσέγγιση δεν λαμβάνει υπόψη την συχνότητα εμφάνισης των όρων στα ερωτήματα ενώ στην απλή περίπτωση αξιολόγησης με BM25 ή TFIDF λαμβάνεται υπόψη η συχνότητα αυτή. Αυτός βέβαια ήταν και ο λόγος της βελτίωσης των αποτελεσμάτων με πιο «αυστηρές» παραμέτρους όπου επιλέγονται όροι με υψηλή συχνότητα εμφάνισης. Ωστόσο στη περίπτωση αυτή ο αλγόριθμος δεν είναι εύρωστος και επιλογή των βέλτιστων παραμέτρων είναι μια δύσκολη ως αδύνατη διεργασία.Η ιδέα της χρήσης φράσεων βασίστηκε στην ιδιότητα της ελάττωσης του θορύβου που ενυπάρχει στα μεγάλα ερωτήματα. Πράγματι στη προσέγγιση αυτή φαίνεται ότι η χρήση του 90% των φράσεων του ερωτήματος δίνουν την καλύτερη επίδοση το οποίο σημαίνει ότι τελευταίο 10% των λιγότερο σημαντικών φράσεων, αποτελούν θόρυβο και χειροτερεύουν τα αποτελέσματα. Τα αποτελέσματα των φράσεων έδειξαν την ίδια περίπου επίδοση με τα αποτελέσματα της κλασσικής ανάκτησης με BM25 ή TFIDF. Με βάση τα αποτελέσματα αυτά και δεδομένου ότι οι φράσεις περιλαμβάνουν μόλις λίγες λέξεις (3-4 λέξεις) το επόμενο βήμα ήταν η διερεύνηση της επίδοσης των φράσεων με τη χρήση σημασιολογικών διανυσμάτων.
As part of this thesis, we explore various approaches regarding the issue of retrieving information by using large queries. To this end, we developed a benchmark of large queries which were evaluated by experts. Although the set of queries is small, it did not appear to affect the process of drawing general conclusions on the problem we face. It is noted that establishing a criterion for evaluating retrieval methods is a difficult and time-consuming process. From the approaches we tested, we conclude that the use of Elasticsearch BM25 responds well to document-queries providing the highest rates compared to all other methods used in the paper. In the case of MLT queries the performance is reduced due to the fact that the approach does not take into account the term-frequency of queries while in simple evaluations with BM25 or TF-IDF term-frequency is taken into account. For the same reason, results were improved when tests which used “strict” parameters took place. However, selecting the optimal parameters for MLT queries remain a difficult and weak process. The idea of using phrases as parameter is based on the property of reducing the noise that exists in large queries. Indeed, by implementing this approach, the use of 90% of the query phrases seems to perform best, which means that the last 10% of the less important phrases are noisy and have reduce performance. Phrase-results showed a similar performance the classic approaches using the BM25 or TFIDF weighting schemes. Based on these results and since the phrases we used contained only a few words (3-4 words), the next step was to investigate the performance of the phrases using semantic vectors. The outcome of this process does not confirm our initial estimates although there is much room for improvement and further exploration of the approach.

Subject :	Ανάκτηση πληροφοριών Μεγάλα ερωτήματα Φράσεις Information retrieval Large queries Phrases

Date Available :	2019-10-06 21:05:02

Date Issued :	10/06/2019

Date Submitted :	2019-10-06 21:05:02

Access Rights :	Free access

Licence :

File: Sigalas_2019.pdf

Type: application/pdf

Login