Βιβλιοθήκη ΟΠΑ - Ψηφιακό Αποθετήριο

ΠΥΞΙΔΑ Ιδρυματικό Αποθετήριο
και Ψηφιακή Βιβλιοθήκη

Όνομα χρήστη
Κωδικός πρόσβασης

Συλλογές :	Ιδρυματικό Αποθετήριο ΟΠΑ / AUEB Institutional Repository Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας / School of Informatics Τμήμα Πληροφορικής / Department of Informatics Μεταπτυχιακές Εργασίες / Postgraduate dissertations

Τίτλος :	Exploring diagnostic captioning methods

Εναλλακτικός τίτλος :	Ερευνώντας μοντέλα για διαγνωστική περιγραφή εικόνων

Δημιουργός :	Karatzas, Vasilis Καρατζάς, Βασίλης

Συντελεστής :	Androutsopoulos, Ion (Επιβλέπων καθηγητής) Vassalos, Vasilios (Εξεταστής) Koutsopoulos, Iordanis (Εξεταστής) Athnes University of Economics and Business, Department of Informatics (Degree granting institution)

Τύπος :	Text

Φυσική περιγραφή :	54p.

Γλώσσα :	en

Αναγνωριστικό :	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=8944

Περίληψη :	Image captioning has been researched a lot recently, but not much of that research has been applied to the biomedical domain. Diagnostic Captioning, the process of predicting diagnoses for medical images, can be very helpful for medical experts, since writing a diagnosis can be time-consuming and there is a lot of demand for it. In this master thesis the behavior of three types of models for diagnostic captioning is studied: image unaware unaware, retrieval, and image encoders combined with language models. The thesis also contains important findings on the difference that the preprocessing of the test captions can make in evaluation scores. Finally, this thesis concerns the participation of AUEB's NLP Group in the 2021 ImageCLEFmedical Caption competition, where the main driver was the author. The team earned the 2nd place among 8 teams with a retrieval based model. Το πεδίο της παραγωγής περιγραφών εικόνων (Image Captioning) έχει ερευνηθεί αρκετά τελευταία, αλλά δεν έχει εφαρμοστεί πολλή από αυτήν την έρευνα πάνω στον βϊοιατρικό τομέα. Η παραγωγή διαγνωστικών περιγραφών εικόνων (Diagnostic Captioning), η διαδικασία πρόβλεψης διαγνώσεων για ιατρικές εικόνες, μπορεί να βοηθήσει αρκετά τους γιατρούς που κάνουν διαγνώσεις, καθώς η συγγραφή διαγνώσεων απαιτεί μερικές φορές αρκετή ώρα, και υπάρχει μεγάλη ανάγκη για υποστήριξη των γιατρών. Σε αυτήν την μεταπτυχιακή εργασία παρατηρούμε τη συμπεριφορά τριών τύπων μοντέλων για παραγωγή διαγνωστικών περιγραφών εικόνων: μοντέλα χωρίς γνώση της εικόνας, μοντέλα ανάκτησης, και κωδικοποιητές εικόνας σε συνδυασμό με γλωσσικά μοντέλα. Κάνουμε επίσης σημαντικές παρατηρήσεις σχετικά με τη διαφορά που μπορεί να κάνει η προεπεξεργασία των κειμένων στις βαθμολογίες. Συμμετείχαμε επίσης στον διαγωνισμό ImageCLEFmedical Caption του 2021, όπου πήραμε τη 2η θέση μεταξύ 8 ομάδων με μοντέλο βασισμένο στην ανάκτηση.

Περίληψη :

Image captioning has been researched a lot recently, but not much of that research has been applied to the biomedical domain. Diagnostic Captioning, the process of predicting diagnoses for medical images, can be very helpful for medical experts, since writing a diagnosis can be time-consuming and there is a lot of demand for it. In this master thesis the behavior of three types of models for diagnostic captioning is studied: image unaware unaware, retrieval, and image encoders combined with language models. The thesis also contains important findings on the difference that the preprocessing of the test captions can make in evaluation scores. Finally, this thesis concerns the participation of AUEB's NLP Group in the 2021 ImageCLEFmedical Caption competition, where the main driver was the author. The team earned the 2nd place among 8 teams with a retrieval based model.
Το πεδίο της παραγωγής περιγραφών εικόνων (Image Captioning) έχει ερευνηθεί αρκετά τελευταία, αλλά δεν έχει εφαρμοστεί πολλή από αυτήν την έρευνα πάνω στον βϊοιατρικό τομέα. Η παραγωγή διαγνωστικών περιγραφών εικόνων (Diagnostic Captioning), η διαδικασία πρόβλεψης διαγνώσεων για ιατρικές εικόνες, μπορεί να βοηθήσει αρκετά τους γιατρούς που κάνουν διαγνώσεις, καθώς η συγγραφή διαγνώσεων απαιτεί μερικές φορές αρκετή ώρα, και υπάρχει μεγάλη ανάγκη για υποστήριξη των γιατρών. Σε αυτήν την μεταπτυχιακή εργασία παρατηρούμε τη συμπεριφορά τριών τύπων μοντέλων για παραγωγή διαγνωστικών περιγραφών εικόνων: μοντέλα χωρίς γνώση της εικόνας, μοντέλα ανάκτησης, και κωδικοποιητές εικόνας σε συνδυασμό με γλωσσικά μοντέλα. Κάνουμε επίσης σημαντικές παρατηρήσεις σχετικά με τη διαφορά που μπορεί να κάνει η προεπεξεργασία των κειμένων στις βαθμολογίες. Συμμετείχαμε επίσης στον διαγωνισμό ImageCLEFmedical Caption του 2021, όπου πήραμε τη 2η θέση μεταξύ 8 ομάδων με μοντέλο βασισμένο στην ανάκτηση.

Λέξη κλειδί :	Image captioning Retrieval Encoder-decoder Περιγραφή εικόνων Ανάκτηση Κωδικοποιητής-αποκωδικοποιητής

Διαθέσιμο από :	2021-11-22 10:27:06

Ημερομηνία έκδοσης :	11/09/2021

Ημερομηνία κατάθεσης :	2021-11-22 10:27:06

Δικαιώματα χρήσης :	Free access

Άδεια χρήσης :

Αρχείο: Karatzas_2021.pdf

Τύπος: application/pdf

Είσοδος