Leveraging retrieval-augmented generation for student support: a document-centric QA system for the AUEB informatics studies guide
| dc.aueb.department | Department of Informatics | |
| dc.contributor.opponent | Androutsopoulos, Ion | en |
| dc.contributor.opponent | Stafylakis, Themos | en |
| dc.creator | Mitsakis, Nikos | en |
| dc.creator | Μητσάκης, Νικόλαος | el |
| dc.date.accessioned | 2025-11-19T13:03:25Z | |
| dc.date.available | 2025-11-19T13:03:25Z | |
| dc.date.issued | 2025-07 | |
| dc.description.abstract | This thesis examines the design, development, and evaluation of a Retrieval-Augmented Generation (RAG) system specifically designed to support undergraduate students in the Department of Informatics at the Athens University of Economics and Business (AUEB). The central objective is to create a cost-effective yet high-quality AI assistant capable of answering studies guide-related questions, ensuring that all responses are explicitly grounded in the latest edition of the department's official Studies Guide. To achieve this, the system ingests the newest version of the Studies Guide. It represents its contents at three levels of granularity: chunks (bodies of text corresponding to paragraphs or groups of paragraphs on a specific topic, based on the document’s structure), sentences (extracted by sentence tokenizing each chunk), and propositions (decontextualized factual statements synthetically generated from the chunks). The retrieval architecture explores traditional lexical search (BM25), dense vector search, and a hybrid ensemble retriever to maximize retrieval coverage and relevance. Question-answering capabilities are assessed using both real-world and synthetic QA pairs, with the generation module leveraging self-hosted state-of-the-art large language models (LLMs). The thesis conducts a comprehensive evaluation across all document granularities and retrieval configurations, employing both classical information retrieval metrics and more modern LLM-based evaluation. Results demonstrate the feasibility of delivering a factual, responsive, and modular assistant using modest computational resources. The thesis further discusses the limitations and potential extensions of the approach, aiming to provide a blueprint for deploying similar RAG-based assistants in other academic settings. | en |
| dc.description.abstract | Η παρούσα πτυχιακή εργασία εξετάζει το σχεδιασμό, την ανάπτυξη και την αξιολόγηση ενός συστήματος τύπου Retrieval-Augmented Generation (RAG), ειδικά διαμορφωμένου ώστε να υποστηρίζει τους προπτυχιακούς φοιτητές του Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών (ΟΠΑ). Ο κεντρικός στόχος είναι η δημιουργία ενός οικονομικά προσιτού αλλά υψηλής ποιότητας βοηθού τεχνητής νοημοσύνης, ικανού να απαντά σε ερωτήσεις που σχετίζονται με τις σπουδές τους, διασφαλίζοντας ότι όλες οι απαντήσεις είναι τεκμηριωμένες αποκλειστικά βάσει της τελευταίας έκδοσης του επίσημου Οδηγό Σπουδών του Τμήματος. Για το σκοπό αυτό, το σύστημα ενσωματώνει την πιο πρόσφατη έκδοση του Οδηγού Σπουδών, αναπαριστώντας το περιεχόμενό του σε τρία διαφορετικά επίπεδα: τα chunks (τμήματα κειμένου που αντιστοιχούν σε παραγράφους ή ομάδες παραγράφων με βάση τη δομή του εγγράφου), τις προτάσεις (που προκύπτουν από τον τεμαχισμό των chunks σε επιμέρους προτάσεις) και τις αποπλαισιωμένες προτάσεις (δηλώσεις γεγονότων που παράγονται συνθετικά από τα chunks, ως αυτόνομες πληροφορίες). Η αρχιτεκτονική ανάκτησης εξετάζει παραδοσιακές τεχνικές λεξικής αναζήτησης (BM25), πυκνή διανυσματική αναζήτηση και έναν υβριδικό μηχανισμό ανάκτησης, ώστε να επιτυγχάνεται η μέγιστη δυνατή κάλυψη και συνάφεια αποτελεσμάτων. Οι δυνατότητες απάντησης ερωτημάτων αξιολογούνται με βάση ζεύγη ερωτo-απαντήσεων που προέρχονται τόσο από πραγματικά όσο και από συνθετικά δεδομένα, αξιοποιώντας σύγχρονα μεγάλα γλωσσικά μοντέλα (LLMs). Η εργασία πραγματοποιεί εκτενή αξιολόγηση σε όλα τα επίπεδα αναπαράστασης του εγγράφου και για όλες τις διαφορετικές διαμορφώσεις ανάκτησης, χρησιμοποιώντας τόσο κλασικές μετρικές ανάκτησης πληροφοριών όσο και μεθόδους αυτόματης αξιολόγησης βασισμένες σε LLMs. Τα αποτελέσματα αποδεικμεύουν ότι είναι εφικτή η δημιουργία ενός αξιόπιστου, γρήγορου και ευέλικτου βοηθού, αξιοποιώντας σχετικά περιορισμένους υπολογιστικούς πόρους. Τέλος, η εργασία αναφέρει τους περιορισμούς και τις δυνητικές επεκτάσεις της προτεινόμενης προσέγγισης, με στόχο να παρέχει ένα πρότυπο για την ανάπτυξη παρόμοιων βοηθών τύπου RAG και σε άλλα ακαδημαϊκά πλαίσια. | el |
| dc.embargo.rule | Open access | |
| dc.format.extent | pages 108 | el |
| dc.identifier.uri | https://pyxida.aueb.gr/handle/123456789/12291 | |
| dc.identifier.uri | https://doi.org/10.26219/heal.aueb.9497 | |
| dc.language | en | |
| dc.rights | Attribution 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | |
| dc.subject | Retrieval-Augmented Generation (RAG) | en |
| dc.subject | Large Language Models (LLMs) | en |
| dc.subject | Information retrieval | en |
| dc.subject | Question answering | en |
| dc.subject | Natural Language Processing (NLP) | en |
| dc.subject | Document indexing | en |
| dc.subject | Prompt engineering | en |
| dc.subject | Επεξεργασία φυσικής γλώσσας | el |
| dc.subject | Μεγάλα γλωσσικά μοντέλα | el |
| dc.subject | Ανάκτηση πληροφοριών | el |
| dc.title | Leveraging retrieval-augmented generation for student support: a document-centric QA system for the AUEB informatics studies guide | en |
| dc.title.alternative | Leveraging retrieval-augmented generation for student support: a document-centric QA system for the AUEB informatics studies guide | en |
| dc.type | Text |
Αρχεία
Πρωτότυπος φάκελος/πακέτο
1 - 1 από 1
Δεν υπάρχει διαθέσιμη μικρογραφία
- Ονομα:
- Mitsakis_2025.pdf
- Μέγεθος:
- 2.42 MB
- Μορφότυπο:
- Adobe Portable Document Format
