Advanced deep learning techniques for credit risk prediction
Προηγμένες τεχνικές βαθιάς μάθησης για πρόβλεψη πιστωτικού κινδύνου
Master Thesis
Συγγραφέας
Solanakis, Spyridon
Σολανάκης, Σπυρίδων
Ημερομηνία
2025-02Λέξεις κλειδιά
Παρεμβολή ; Τεχνητά νευρωνικά δίκτυα ; Βαθιά μάθηση ; Δίκτυα Kolmogorov-Arnold ; Αξιολόγηση πιστοληπτικής κανότητας ; Regression ; Artificial neural networks ; Deep learning ; Kolmogorov-Arnold networks ; Credit scoringΠερίληψη
Η παρούσα μεταπτυχιακή διατριβή επεκτείνει τη δουλειά που παρουσιάστηκε στο άρθρο "Evolving
Transparent Credit Risk Models: A Symbolic Regression Approach Using Genetic Programming"
(Sotiropoulos et al. 2024), εστιάζοντας στη βελτίωση της ακρίβειας πρόβλεψης πιστωτικού κινδύνου
μέσω προηγμένων τεχνικών μοντελοποίησης. Η αρχική μελέτη πρότεινε ένα πολυεπίπεδο πλαίσιο
παλινδρόμησης για την ανάλυση κανονικοποιημένων FICO scores, τα οποία χωρίστηκαν σε 20
κατηγορίες που αντιπροσωπεύουν διαφορετικά επίπεδα πιστωτικού κινδύνου. Παρότι το πλαίσιο
αντιμετώπισε αποτελεσματικά το πρόβλημα της παλινδρόμησης χρησιμοποιώντας διάφορα μοντέλα
μηχανικής μάθησης, εντοπίστηκαν προκλήσεις στα ανώτερα επίπεδα λόγω της αυξημένης
πολυπλοκότητας και της επικάλυψης των κλάσεων.
Με βάση αυτά τα ευρήματα, η παρούσα έρευνα εισάγει τα Kolmogorov-Arnold Networks (KANs) ως
μια ερμηνεύσιμη εναλλακτική λύση στα «black box» μοντέλα. Παράλληλα, διερευνώνται προηγμένες
μέθοδοι επεξεργασίας χαρακτηριστικών (feature engineering) και επαναληπτικής αναπροσαρμογής του
dataset για την αντιμετώπιση προβλημάτων εσφαλμένης ταξινόμησης δεδομένων και της
μεταβλητότητας στα ανώτερα επίπεδα. Κύριες καινοτομίες περιλαμβάνουν την εκ νέου ανάθεση
σημείων δεδομένων σε FICO κατηγορίες βάσει της εγγύτητας στα κεντροειδή, την ανακατανομή των
δεδομένων σε επίπεδα ώστε να διασφαλιστεί ισορροπημένη εκπροσώπηση και την εφαρμογή μέσων
τιμών FICO από τα k κοντινότερα κεντροειδή. Αυτές οι μεθοδολογίες οδήγησαν σε σημαντικές
βελτιώσεις στην ακρίβεια πρόβλεψης, επιτυγχάνοντας τιμές κοντά στη μονάδα σε ορισμένες
διαμορφώσεις, ιδιαίτερα για datasets με διευρυμένα σύνολα χαρακτηριστικών.
Τα αποτελέσματα επιβεβαιώνουν την υπόθεση ότι ορισμένα σημεία δεδομένων είχαν αρχικά
ταξινομηθεί λανθασμένα σε εσφαλμένες κατηγορίες ή ότι επιπλέον χαρακτηριστικά που δεν
περιλαμβάνονται στο dataset επηρεάζουν τις αναθέσεις στις κατηγορίες. Συνολικά, τα ευρήματα
υποδεικνύουν ότι η βελτίωση των αναθέσεων στις FICO κατηγορίες και η ενίσχυση της κατανομής των
δεδομένων στα επίπεδα είναι κρίσιμα βήματα για τη βελτίωση της απόδοσης των μοντέλων. Επιπλέον,
η ενσωμάτωση πρόσθετων χαρακτηριστικών ή εξειδικευμένης γνώσης του πεδίου μπορεί να
βελτιστοποιήσει περαιτέρω τις προβλέψεις πιστωτικού κινδύνου και να προσφέρει μια ισχυρότερη
βάση για μελλοντικές εξελίξεις στον τομέα.