Περίληψη : | Assessing credit risk through machine learning typically involves the application of classification algorithms to distinguish between reliable and unreliable customers based on historical data. This thesis delves into the application through extensive literature review of machine learning techniques for credit risk assessment within the banking sector, highlighting the shift from traditional statistical methods to advanced AI-driven algorithms due to their efficiency in handling complex datasets. In extension, the research applies various machine learning models, including logistic regression, decision trees, and random forests, to an unbalanced dataset to assess their impact on predicting loan defaults, AND also explores the use of SMOTE for dataset balancing, aiming to improve model performance in predicting financial outcomes In the analysis of imbalanced datasets, tree-based methodologies demonstrate a marginal superiority over logistic regression as ordinal classifiers. However, logistic regression distinguishes itself with superior discriminative power, as evidenced by higher Area Under the Curve (AUC) score values, across both balanced and imbalanced datasets. Η αξιολόγηση του πιστωτικού κινδύνου μέσω της μηχανικής μάθησης συνήθως περιλαμβάνει την εφαρμογή αλγορίθμων ταξινόμησης για να διακρίνει μεταξύ αξιόπιστων και μη αξιόπιστων πελατών βάσει ιστορικών δεδομένων. Αυτή η εργασία εμβαθύνει στην εφαρμογή μέσω εκτενούς ανασκόπησης της βιβλιογραφίας των τεχνικών μηχανικής μάθησης για την αξιολόγηση του πιστωτικού κινδύνου εντός του τραπεζικού τομέα, τονίζοντας τη μετάβαση από τις παραδοσιακές στατιστικές μεθόδους σε προηγμένους αλγορίθμους που βασίζονται στην τεχνητή νοημοσύνη λόγω της αποδοτικότητάς τους στη διαχείριση περίπλοκων και μεγάλων συνόλων δεδομένων. Επιπλέον, η έρευνα εφαρμόζει εμπειρικά διάφορα μοντέλα μηχανικής μάθησης, συμπεριλαμβανομένων της λογιστικής παλινδρόμησης, των δέντρων αποφάσεων και των Random Forests, σε ένα μη ισορροπημένο σύνολο δεδομένων με σκοπό να αξιολογήσει την επίδρασή τους στην πρόβλεψη των δανείων και της αθέτησης πληρωμών αυτών. Επίσης εξερευνά τη χρήση της SMOTE (Synthetic Minority Oversampling Technique) τεχνικής για την ισορροπία των συνόλων δεδομένων, με στόχο τη βελτίωση της απόδοσης των μοντέλων στην πρόβλεψη αποτελεσμάτων. Στην ανάλυση των μη ισορροπημένων συνόλων δεδομένων, οι μεθοδολογίες βασισμένες σε δέντρα επιδεικνύουν μια οριακή υπεροχή έναντι της λογιστικής παλινδρόμησης ως κατατακτηρίων ταξινομητών. Ωστόσο, η λογιστική παλινδρόμηση διακρίνεται με ανώτερη διακριτική ικανότητα, όπως φαίνεται από τις υψηλότερες τιμές σκορ που λαμβάνει η Area Under the Curve (AUC), και στα ισορροπημένα και στα μη ισορροπημένα σύνολα δεδομένων.
|
---|