Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Υλοποίηση του στατιστικού μοντέλου Πολλαπλής Γραμμικής Παλινδρόμησης στην πλατφόρμα κατανεμημένης επεξεργασίας SPARK

Δημιουργός :	Νίτσο, Μαρινέλα

Συντελεστής :	Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	72σ.

Γλώσσα :	el

Περίληψη :	Στη στατιστική, η γραμμική παλινδρόμηση είναι μια προσέγγιση για τη μοντελοποίηση της σχέσης μεταξύ μιας εξαρτημένης μεταβλητής Υ και μίας ή περισσοτέρων επεξηγηματικών μεταβλητών (ή ανεξάρτητων μεταβλητών) X. Η περίπτωση μιας επεξηγηματικής μεταβλητής ονομάζεται απλή γραμμική παλινδρόμηση. Για περισσότερες από μία επεξηγηματικές μεταβλητές, η διαδικασία ονομάζεται πολλαπλή γραμμική παλινδρόμηση. Στην γραμμική παλινδρόμηση, τα δεδομένα μοντελοποιούνται χρησιμοποιώντας γραμμικές λειτουργίες προγνωστικά, και οι άγνωστες παράμετροι του μοντέλου υπολογίζονται από τα δεδομένα. Η γραμμική παλινδρόμηση χρησιμοποιείται ευρέως σε βιολογικές, συμπεριφορικές και κοινωνικές επιστήμες για να περιγράψει πιθανές σχέσεις μεταξύ των μεταβλητών. Κατατάσσεται ως ένα από τα πιο σημαντικά εργαλεία που χρησιμοποιούνται σε αυτούς τους κλάδους. Στη πληροφορική, η επεξεργασία δεδομένων μεγάλης κλίμακας αποτελούν την νέα τάση καθώς καθημερινά παράγονται τεράστιες ποσότητες δεδομένων από έξυπνα τηλέφωνα(smartphones), αισθητήρες, κάμερες, βίντεο, έξυπνους μετρητές και άλλες συνδεδεμένες συσκευές, επιπλέον της πληθώρας των δεδομένων που παράγονται από παραδοσιακές πηγές. Η πλατφόρμα Spark είναι μια πλατφόρμα γενικής χρήσης, σχεδιασμένη για να λειτουργεί σε συστοιχία υπολογιστών και να επεξεργάζεται δεδομένα μεγάλης κλίμακας, σε υψηλές ταχύτητες. Ένα από τα κύρια χαρακτηριστικά του Spark, που προσφέρει την επεξεργασία των δεδομένων σε υψηλές ταχύτητες, είναι η δυνατότητα να εκτελεί τους υπολογισμούς στη μνήμη με χρήση μιας ευέλικτης κατανεμημένης δομής δεδομένων (Resilient Distributed Datasets). Σε αυτή την εργασία θα περιγράψουμε αναλυτικά την υλοποίηση της μεθοδολογίας πολλαπλής γραμμικής παλινδρόμησης στην πλατφόρμα Spark. Αυτό πρακτικά σημαίνει ότι μεγάλα σε όγκο σετ δεδομένων μπορούν να εισαχθούν στο πρόγραμμα και να υπολογιστεί το μοντέλο της παλινδρόμησης βάση των δεδομένων εισόδου, σε ικανοποιητικούς χρόνους. Στο πρώτο κεφάλαιο θα γίνει λεπτομερής περιγραφή της μεθοδολογίας της γραμμικής παλινδρόμησης, μέσω μαθηματικών τύπων και στατιστικών όρων. Στο δεύτερο κεφάλαιο ακολουθεί μια συνοπτική περιγραφή της πλατφόρμας Spark και της αρχιτεκτονικής που χρησιμοποιείται. Επιπλέον, περιλαμβάνεται μια εισαγωγή στις βασικές έννοιες του Spark αλλά και στον τρόπο με τον οποίο προγραμματίζουμε και εκτελούμε εφαρμογές στην πλατφόρμα. Στο τρίτο κεφάλαιο περιγράφουμε αναλυτικά την υλοποίηση του μοντέλου στο Spark και περιγράφουμε ενότητα προς ενότητα τον τρόπο με τον οποίο έχει γίνει ο προγραμματισμός στην πλατφόρμα. Στο τέταρτο κεφάλαιο ακολουθεί μια αναλυτική περιγραφή των σετ δεδομένων για τα οποία θα εκτελέσουμε το πρόγραμμα. Τέλος, στο πέμπτο κεφάλαιο παρουσιάζουμε τα αποτελέσματα από την εκτέλεση του προγράμματος για τα σετ δεδομένων, τα συγκρίνουμε με το SPSS για να επιβεβαιώσουμε την εγκυρότητα των αποτελεσμάτων και τέλος παρουσιάζουμε κάποια αποτελέσματα χρόνων εκτέλεσης από μεγάλα σε όγκο σετ δεδομένων και συγκρίνουμε τα αποτελέσματα από διάφορους συνδυασμούς πειραμάτων. In statistics, linear regression is an approach for modeling the relationship between a dependent variable Y and one or more explanatory variables (or independent variables) X. The case of an explanatory variable is called simple linear regression. For more than one explanatory variable, the procedure called multiple linear regression. In the linear regression, the data are modeled using linear predictive operations, and the unknown model parameters are calculated from the data. The linear regression is widely used in biological , behavioral and social sciences to describe possible relationships between variables . It ranks as one of the most important tools used in these sectors. In the sector of informatics, processing of big data is the new trend, as daily produced huge amounts of data from smartphone, sensors, cameras, video, smart meters and other connected devices, in addition to the variety of data generated from traditional sources. Apache Spark is a cluster computing platform designed to be fast, general-purpose and to process large-scale data in high execution times. One of the main features Spark offers for speed is the ability to run computations in memory using a resilient distributed data type. In this thesis we describe the implementation of multiple linear regression methodology using the Spark platform. This means that large in size data sets can be imported to the program and calculate the regression model based on the input data, to satisfactory times. The first chapter contains a description of the linear regression methodology, through mathematical formulas and statistical terms. The second chapter contains a brief description of the Spark platform and architecture used. In addition, it describes an introduction to the basic concepts of the Spark and the way applications are scheduled and executed on the platform. In the third chapter, we describe in detail the implementation of the model to Spark. The fourth chapter contains a detailed description of the data set for which we execute the program. In the last chapter we present the results of executing the program for the described data sets, we compare them with the SPSS in order to validate the results produced and we finally present some execution time results of large scale data sets and compare the results from various experiments combinations.

Περίληψη :

Στη στατιστική, η γραμμική παλινδρόμηση είναι μια προσέγγιση για τη μοντελοποίηση της σχέσης μεταξύ μιας εξαρτημένης μεταβλητής Υ και μίας ή περισσοτέρων επεξηγηματικών μεταβλητών (ή ανεξάρτητων μεταβλητών) X. Η περίπτωση μιας επεξηγηματικής μεταβλητής ονομάζεται απλή γραμμική παλινδρόμηση. Για περισσότερες από μία επεξηγηματικές μεταβλητές, η διαδικασία ονομάζεται πολλαπλή γραμμική παλινδρόμηση. Στην γραμμική παλινδρόμηση, τα δεδομένα μοντελοποιούνται χρησιμοποιώντας γραμμικές λειτουργίες προγνωστικά, και οι άγνωστες παράμετροι του μοντέλου υπολογίζονται από τα δεδομένα. Η γραμμική παλινδρόμηση χρησιμοποιείται ευρέως σε βιολογικές, συμπεριφορικές και κοινωνικές επιστήμες για να περιγράψει πιθανές σχέσεις μεταξύ των μεταβλητών. Κατατάσσεται ως ένα από τα πιο σημαντικά εργαλεία που χρησιμοποιούνται σε αυτούς τους κλάδους. Στη πληροφορική, η επεξεργασία δεδομένων μεγάλης κλίμακας αποτελούν την νέα τάση καθώς καθημερινά παράγονται τεράστιες ποσότητες δεδομένων από έξυπνα τηλέφωνα(smartphones), αισθητήρες, κάμερες, βίντεο, έξυπνους μετρητές και άλλες συνδεδεμένες συσκευές, επιπλέον της πληθώρας των δεδομένων που παράγονται από παραδοσιακές πηγές. Η πλατφόρμα Spark είναι μια πλατφόρμα γενικής χρήσης, σχεδιασμένη για να λειτουργεί σε συστοιχία υπολογιστών και να επεξεργάζεται δεδομένα μεγάλης κλίμακας, σε υψηλές ταχύτητες. Ένα από τα κύρια χαρακτηριστικά του Spark, που προσφέρει την επεξεργασία των δεδομένων σε υψηλές ταχύτητες, είναι η δυνατότητα να εκτελεί τους υπολογισμούς στη μνήμη με χρήση μιας ευέλικτης κατανεμημένης δομής δεδομένων (Resilient Distributed Datasets). Σε αυτή την εργασία θα περιγράψουμε αναλυτικά την υλοποίηση της μεθοδολογίας πολλαπλής γραμμικής παλινδρόμησης στην πλατφόρμα Spark. Αυτό πρακτικά σημαίνει ότι μεγάλα σε όγκο σετ δεδομένων μπορούν να εισαχθούν στο πρόγραμμα και να υπολογιστεί το μοντέλο της παλινδρόμησης βάση των δεδομένων εισόδου, σε ικανοποιητικούς χρόνους. Στο πρώτο κεφάλαιο θα γίνει λεπτομερής περιγραφή της μεθοδολογίας της γραμμικής παλινδρόμησης, μέσω μαθηματικών τύπων και στατιστικών όρων. Στο δεύτερο κεφάλαιο ακολουθεί μια συνοπτική περιγραφή της πλατφόρμας Spark και της αρχιτεκτονικής που χρησιμοποιείται. Επιπλέον, περιλαμβάνεται μια εισαγωγή στις βασικές έννοιες του Spark αλλά και στον τρόπο με τον οποίο προγραμματίζουμε και εκτελούμε εφαρμογές στην πλατφόρμα. Στο τρίτο κεφάλαιο περιγράφουμε αναλυτικά την υλοποίηση του μοντέλου στο Spark και περιγράφουμε ενότητα προς ενότητα τον τρόπο με τον οποίο έχει γίνει ο προγραμματισμός στην πλατφόρμα. Στο τέταρτο κεφάλαιο ακολουθεί μια αναλυτική περιγραφή των σετ δεδομένων για τα οποία θα εκτελέσουμε το πρόγραμμα. Τέλος, στο πέμπτο κεφάλαιο παρουσιάζουμε τα αποτελέσματα από την εκτέλεση του προγράμματος για τα σετ δεδομένων, τα συγκρίνουμε με το SPSS για να επιβεβαιώσουμε την εγκυρότητα των αποτελεσμάτων και τέλος παρουσιάζουμε κάποια αποτελέσματα χρόνων εκτέλεσης από μεγάλα σε όγκο σετ δεδομένων και συγκρίνουμε τα αποτελέσματα από διάφορους συνδυασμούς πειραμάτων.
In statistics, linear regression is an approach for modeling the relationship between a dependent variable Y and one or more explanatory variables (or independent variables) X. The case of an explanatory variable is called simple linear regression. For more than one explanatory variable, the procedure called multiple linear regression. In the linear regression, the data are modeled using linear predictive operations, and the unknown model parameters are calculated from the data. The linear regression is widely used in biological , behavioral and social sciences to describe possible relationships between variables . It ranks as one of the most important tools used in these sectors. In the sector of informatics, processing of big data is the new trend, as daily produced huge amounts of data from smartphone, sensors, cameras, video, smart meters and other connected devices, in addition to the variety of data generated from traditional sources. Apache Spark is a cluster computing platform designed to be fast, general-purpose and to process large-scale data in high execution times. One of the main features Spark offers for speed is the ability to run computations in memory using a resilient distributed data type. In this thesis we describe the implementation of multiple linear regression methodology using the Spark platform. This means that large in size data sets can be imported to the program and calculate the regression model based on the input data, to satisfactory times. The first chapter contains a description of the linear regression methodology, through mathematical formulas and statistical terms. The second chapter contains a brief description of the Spark platform and architecture used. In addition, it describes an introduction to the basic concepts of the Spark and the way applications are scheduled and executed on the platform. In the third chapter, we describe in detail the implementation of the model to Spark. The fourth chapter contains a detailed description of the data set for which we execute the program. In the last chapter we present the results of executing the program for the described data sets, we compare them with the SPSS in order to validate the results produced and we finally present some execution time results of large scale data sets and compare the results from various experiments combinations.

Λέξη κλειδί :	Πολλαπλή Γραμμική Παλινδρόμηση Πλατφόρμα Spark Σετ δεδομένων Resilient Distributed Datasets

Ημερομηνία :	31-10-2015

Άδεια χρήσης :

Αρχείο: Nitso_2015.pdf

Τύπος: application/pdf

Είσοδος