ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη
Συλλογές :

Τίτλος :A metadata monitoring framework for explainable outlier detection
Εναλλακτικός τίτλος :Πλαίσιο παρακολούθησης μεταδεδομένων για εξηγήσιμη ανίχνευση απομακρυσμένων τιμών
Δημιουργός :Γραβιάς, Λουκάς
Gravias, Loukas
Συντελεστής :Κωτίδης, Ιωάννης (Επιβλέπων καθηγητής)
Κουτσόπουλος, Ιορδάνης (Εξεταστής)
Βασσάλος, Βασίλειος (Εξεταστής)
Athens University of Economics and Business, Department of Informatics (Degree granting institution)
Τύπος :Text
Φυσική περιγραφή :82p.
Γλώσσα :en
Αναγνωριστικό :http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8144
Περίληψη :Η εποχή των μεγάλων δεδομένων κάνει την διαδικασία παρακολούθησής τους ιδιαίτερα δύσκολη και πολύπλοκη για τους οργανισμούς και τις εταιρείες, ενώ η διασφάλιση υψηλής ποιότητας δεδομένων εξασφαλίζει τις κατάλληλες πληροφορίες για την διαδικασία λήψης αποφάσεων. Οι περισσότεροι οργανισμοί δεν διαθέτουν μια σταθερή διαδικασία ελέγχου της ποιότητας των δεδομένων σε όλα τους τα τμήματα. Η παρούσα πτυχιακή εργασία παρουσιάζει ένα λογισμικό εργαλείο για την παρακολούθηση της ποιότητας των δεδομένων και τον εντοπισμό ανωμαλιών το οποίο μπορεί να χρησιμοποιηθεί ανεξαρτήτως των υποκειμένων δεδομένων. Ο στόχος της προτεινόμενης μεθόδου είναι η διευκόλυνση του γρήγορου εντοπισμού ανωμαλιών τόσο σε επίπεδο ενός στοιχείου όσο και σε επίπεδο πίνακα κατά την πάροδο του χρόνου. Αυτό επιτυγχάνεται μέσω ενός συστήματος διαχείρισης μεταδεδομένων το οποίο εξάγει μεταδεδομένα από μια αποθήκη μεγάλων δεδομένων, ενός συστήματος παρακολούθησης της ποιότητας των δεδομένων το οποίο αυτόματα εντοπίζει αλλαγές σε βασικούς δείκτες ποιότητας στην πάροδο του χρόνου και ενός εξηγήσιμου συστήματος ανίχνευσης απομακρυσμένων τιμών το οποίο μπορεί να βοηθήσει στον εντοπισμό προβληματικών δεδομένων και στην κατανόηση των λόγων για τους οποίους η εκάστοτε τιμή θεωρείται ανωμαλία. Η προτεινόμενη μεθοδολογία ελέγχεται σε δύο διαφορετικές μελέτες περίπτωσης.
The era of big data is making data monitoring difficult and cumbersome for organizations while high data quality is paramount for ensuring correct input for decision making. Most organizations lack consistent data quality checking practices across different departments. The present thesis describes the development of a web-based tool for data quality monitoring and detection of anomalous behavior which can be used irrespective of the different underlying data sources. The goal of the proposed approach is to facilitate quick identification of anomalies through automated detection both on an individual data point level and on table level across time. This is achieved through a metadata management system which extracts useful metadata from a big data warehouse, a quality monitoring system that automatically detects changes in key quality metrics across time and an explainable outlier detection system that can aid in locating problematic data points and understanding why they are considered anomalies. The proposed methodology is tested on two case studies.
Λέξη κλειδί :Διαχείριση μεταδεδομένων
Παρακολούθηση ποιότητας δεδομένων
Σκιαγράφηση δεδομένων
Εντοπισμός απομακρυσμένων τιμών
Μεγάλα Δεδομένα
Metadata management
Data quality monitoring
Data profiling
Outlier detection
Big Data
Διαθέσιμο από :2020-12-07 19:40:44
Ημερομηνία έκδοσης :05-12-2020
Ημερομηνία κατάθεσης :2020-12-07 19:40:44
Δικαιώματα χρήσης :Free access
Άδεια χρήσης :

Αρχείο: Gravias_2020.pdf

Τύπος: application/pdf