Πλοήγηση ανά Συγγραφέα "Kapralos, Rafail-Nikolaos"

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω

Τώρα δείχνει 1 - 1 από 1

Disambiguation and entity linking of research methods in academic literature
(2024-12-20) Καπράλος, Ραφαήλ-Νικόλαος; Kapralos, Rafail-Nikolaos; Athens University of Economics and Business, Department of Informatics; Constantopoulos, Panos; Kotidis, Ioannis; Pertsas, Vayianos
Η Αντιστοίχιση Οντοτήτων (EL) είναι μια διεργασία στην Επεξεργασία Φυσικής Γλώσσας που περιλαμβάνει την αντιστοίχιση κειμενικών αναφορών με τις σωστές εγγραφές σε μια Βάση Γνώσεων. Στην παρούσα διπλωματική, προτείνουμε μια νέα, δυναμική και ευέλικτη μέθοδο EL χωρίς εκπαίδευση, η οποία αξιοποιεί τεχνικές Μηχανικής Μάθησης και Μεγάλων Γλωσσικών Μοντέλων (LLM) για την αντιστοίχιση κειμενικών τμημάτων ερευνητικών μεθόδων με τις αντίστοιχες εγγραφές του Wikidata. Η μεθοδολογία μας αποτελείται από πέντε στάδια: 1) Κανονικοποίηση Δεδομένων, η οποία λαμβάνει ως είσοδο τις κειμενικές αναφορές οντοτήτων μαζί με το την πρόταση και τις μετατρέπει σε μια τυποποιημένη αναπαράσταση χρησιμοποιώντας ένα LLM; 2) Ανάκτηση Υποψηφίων, όπου αξιοποιεί δύο APIs για την ανάκτηση υποψηφίων οντοτήτων; 3) Συλλογή Πληροφοριών, όπου χρησιμοποιεί ερωτήματα SPARQL για την απόκτηση σχετικών πληροφοριών για κάθε υποψήφια οντότητα; 4) Επιλογή Υποψηφίου, όπου χρησιμοποιεί ένα μοντέλο αναπαράστασης για να κωδικοποιήσει τις προτάσεις, τις αναφορές και τις υποψήφιες οντότητες σε διανυσματικές αναπαραστάσεις, ενώ εφαρμόζοντας σημασιολογική ομοιότητα επιλέγει την οντότητα με τη μεγαλύτερη βαθμολογία ως τη σωστή; και 5) Αντιστοίχιση Υποψηφίων, η οποία συνδέει τη σωστή οντότητα με τη αντίστοιχη στη βάση γνώσεων. Για την αξιολόγηση της μεθόδου μας, δημιουργήσαμε ένα σύνολο δεδομένων με ανθρώπινη επιμέλεια, που περιλαμβάνει 3,947 κειμενικές αναφορές σε ονόματα ερευνητικών μεθόδων με σύνθετες λεξικο-συντακτικές μορφές (π.χ. "denaturing gradient gel electrophoresis", ή ακρωνύμια), οι οποίες αποσαφηνίστηκαν και συνδέθηκαν χειροκίνητα με τις αντίστοιχες καταχωρήσεις στο Wikidata.Η αξιολόγηση περιλάμβανε έξι πειράματα: τα πρώτα τρία εξέτασαν την απόδοση διάφορων στοιχείων της ροής εργασίας μας (π.χ. Wikipedia και Objective API, διαφορετικές μεθόδους υπολογισμού ομοιότητας και μοντέλα ενσωμάτωσης), ενώ τα υπόλοιπα συνέκριναν την απόδοση της μεθοδολογίας μας με άλλες υπάρχουσες λύσεις υπό διαφορετικές ρυθμίσεις κατωφλίων εμπιστοσύνης (π.χ. χωρίς τροποποίηση, βέλτιστο για κάθε μέθοδο και 50% σε όλες τις μεθόδους). Τα αποτελέσματα δείχνουν ότι η μέθοδός μας είχε State-of-the-Art αποτελέσματα, διατηρώντας ταυτόχρονα υψηλά επίπεδα εμπιστοσύνης σε όλες τις προβλέψεις.