Τίτλος Image recognition on clothing and fashion items
Εναλλακτικός τίτλος Αναγνώριση εικόνων σε είδη ρουχισμού και μόδας
Δημιουργός Rammos, Panagiotis, Ράμμος, Παναγιώτης
Νικολάκης, Ιωάννης
Nikolakis, Ioannnis
Συντελεστής Spinellis, Diomidis
Chatziantoniou, Damianos
Athens University of Economics and Business, Department of Management Science and Technology
Louridas, Panagiotis
Τύπος Text
Φυσική περιγραφή 60p.
Γλώσσα en
Αναγνωριστικό http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8247
Περίληψη Σκοπός της μεταπτυχιακής εργασίας ήταν η δημιουργία μοντέλων μηχανικής εκμάθησης με την ικανότητα να αναγνωρίζουν τα διαφορετικά, διακριτά (πχ παντελόνι εναντίον μπλούζας),ή ιδεατά (πχ το φύλο) γνωρίσματα από μία ευρεία γκάμα ειδών ρουχισμών και μόδας. Για το λόγο αυτό προχωρήσαμε στην ανάπτυξη πολλαπλών νευρωνικών δικτύων, τόσο μέσω ανάπτυξης της εσωτερικής τους δομής, από την αρχή, όσο και με την χρησιμοποίηση προεκπαιδευμένων, πρότυπων μοντέλων, πάνω σε ένα τεράστιο σύνολο δεδομένων γενικότερης φύσεως, με την δοκιμή πολλαπλών διαφορετικών αρχιτεκτονικών στις εκάστοτε περιπτώσεις.Στο πλαίσιο αυτό, χρησιμοποιήσαμε τις προαναφερόμενες δομές, για 5 διαφορετικές κατηγορίες, από πιο απλές και διακριτές όπως το φύλο και η ηλικιακή κατηγορία, μέχρι πιο σύνθετες όπως το είδος μπλούζας. Για την εξασφάλιση των κατάλληλων δεδομένων εκπαίδευσης προχωρήσαμε στην διαμόρφωση ενός συνόλου εικόνων από πολλαπλές πηγές, μεταξύ των οποίων, εικόνες που εξάγαμε από την μηχανή αναζήτησης εικόνων της google με τεχνικές web-scraping, ένα σύνολο δεδομένων από τον ιστότοπο Kaggle, και πολλαπλές μεθόδους τροποποίησης εικόνων για την δημιουργία ενός μεγαλύτερου και διαφοροποιημένου συνόλου. Για την εκπαίδευση τροποποιήσαμε και χρησιμοποιήσαμε εικόνες να είναι μεγέθους 180 x 180 pixel.Επιπρόσθετα, σε συνδυασμό με τις αρχικές απόπειρες εκπαίδευσης των μοντέλων αυτών σε τοπικά μηχανήματα και μια κάρτα γραφικών τύπου NVIDIA, χρησιμοποιήθηκαν τεχνολογίες νέφους και ψηφιακά/φυσικά μηχανήματα της εταιρείας παροχής Google (Virtual machines, σκληροί δίσκοι, μηχανές tpu) για την εκμετάλλευση της ανώτερης επεξεργαστικής ισχύς.Αρχικά, η μεταπτυχιακή μας εργασία επικεντρώνεται στην ανάλυση του συνόλου των δεδομένων και τις διαδικασίες τροποποίησης που αναπτύχθηκαν. Μετέπειτα προχωράει στην περιγραφή των διαδικασιών χτισίματος της δομής που ακολουθήσαμε, την παρουσίαση των αποτελεσμάτων από τις διαφορετικές αρχικτονικές για κάθε γνώρισμα, επί του συνόλου των μοντέλων νευρωνικών δικτύων που εκπαιδεύτικαν στο νέφος, και εν τέλει την αξιολόγηση των καλύτερων αποτελεσμάτων, και τη σύγκριση τους με απλούστερους μηχανισμούς κατηγοριοποίησης.
The purpose of this master's thesis was the creation of machine learning models with the ability to recognize different, distinct (eg pants vs. shirt), or ideal (eg. gender) traits from a wide range of clothing and fashion products. For this reason we proceeded with the development of multiple neural networks, by developing both their internal structure from scratch, and by using standard models, pretrained on a dataset of a more general nature, by testing multiple different architectures in each case.In this context, we used the aforementioned structures for 5 different categories, from simpler and more distinct such as gender and age category, to more complex such as the shirt type. In order to ensure that the appropriate training data will be provided for our tests, we configured a set of images from multiple sources, including images we extracted from the google image search engine using web-scraping techniques, a dataset we acquired from the Kaggle site, and multiple image modification methods as well in order to create a larger and differentiated dataset. For the training of the model we modified and used images of 180 x 180 pixels size.Additionally, in conjunction with our initial attempts to train these models on our local machines using an NVIDIA graphics card, we decided to exploit Google cloud technologies by using specifically digital/physical machines (Virtual machines, hard drives, tpu machines) in order to take advantage of their superior processing power.Initially, our thesis focuses on the analysis of the dataset and the procedures we developed in order to transform/modify the data. It continues by describing the structure of the building procedures we followed, presents the results from different training architectures applied for each feature, and for all the neural network models we had trained in the cloud and eventually, concludes with the evaluation of best results and their comparison with simpler categorization mechanisms.
Λέξη κλειδί Μηχανική εκμάθηση
Νευρωνικά δίκτυα
Αναγνώριση εικόνων
Machine learning
Neural networks
Image recognition
Διαθέσιμο από 2021-01-17 18:20:21
Ημερομηνία έκδοσης 12/16/2020
Ημερομηνία κατάθεσης 2021-01-17 18:20:21
Δικαιώματα χρήσης Free access
Άδεια χρήσης https://creativecommons.org/licenses/by/4.0/