Πρόβλεψη πιστωτικού κινδύνου με μοντέλα μηχανικής μάθησης : εφαρμογή σε οικονομικά δεδομένα

View/ Open
Keywords
Πιστωτικός κίνδυνος ; Χρηματοοικονομική δυσπραγία ; Πρόβλεψη αθέτησης ; Μηχανική μάθηση ; Εποπτευόμενη μάθηση ; Αλγόριθμοι ταξινόμησης ; Τυχαία δάση ; Λογιστική παλινδρόμηση ; XGBoost ; AdaBoost ; LightGBM ; CatBoost ; Εκτίμηση σημαντικότητας χαρακτηριστικών ; Ανάλυση συσχέτισης ; Τεχνικές προ-επεξεργασίας ; Διακριτοποίηση ; Διασταυρούμενη επικύρωση ; SMOTE ; ROC-AUC ; PRC-AUC ; Καμπύλες βαθμονόμησηςAbstract
Η πρόβλεψη του πιστωτικού κινδύνου αποτελεί κρίσιμο ζήτημα στον χρηματοπιστωτικό τομέα. Στην παρούσα μελέτη εξετάζεται η εφαρμογή αλγορίθμων εποπτευόμενης μηχανικής μάθησης για την εκτίμηση της πιθανότητας οικονομικής δυσπραγίας και καθυστέρησης πληρωμών, αξιοποιώντας το σύνολο δεδομένων “Give Me Some Credit”. Για τον σκοπό αυτό, αναπτύχθηκαν και συγκρίθηκαν έξι αλγόριθμοι – Random Forest, Logistic Regression, XGBoost, AdaBoost, LightGBM και CatBoost – με τη χρήση βιβλιοθηκών μηχανικής μάθησης της Python. Στην προ-επεξεργασία εφαρμόστηκαν τεχνικές όπως η διακριτοποίηση ηλικιακών ομάδων (binning) και η αντιμετώπιση της ανισορροπίας των κλάσεων μέσω SMOTE, ενώ πραγματοποιήθηκε ανάλυση συσχέτισης στο πλήρες προ-επεξεργασμένο σύνολο πριν τον διαχωρισμό των δεδομένων. Η εκπαίδευση υλοποιήθηκε με δύο προσεγγίσεις: (1) με όλα τα χαρακτηριστικά, (2) εφαρμόζοντας επιλογή χαρακτηριστικών βάσει της μέσης σημαντικότητάς τους (feature importance). Ωστόσο, η επιλογή χαρακτηριστικών δεν βελτίωσε τις μετρικές αξιολόγησης, με αποτέλεσμα να διατηρηθεί το πλήρες σύνολο δεδομένων. Η αξιολόγηση των μοντέλων πραγματοποιήθηκε μέσω διασταυρούμενης επικύρωσης 10 υποσυνόλων (10-Fold Cross Validation), μέτρησης της ακρίβειας στο σύνολο ελέγχου και άλλων σημαντικών μετρικών. Επιπλέον, δημιουργήθηκε πληθώρα οπτικοποιήσεων, συμπεριλαμβανομένων καμπύλων ROC-AUC και καμπυλών βαθμονόμησης (calibration curves). Τα αποτελέσματα έδειξαν ότι το Random Forest πέτυχε τη υψηλότερη ακρίβεια (92%), ενώ το CatBoost παρουσίασε την πιο αξιόπιστη βαθμονόμηση πιθανοτήτων, με ελαφρώς χαμηλότερη ακρίβεια (91%), καθιστώντας το καταλληλότερο για εφαρμογές που απαιτούν ακριβείς πιθανοτικές εκτιμήσεις, όπως η πρόβλεψη του πιστωτικού κινδύνου. Τα ευρήματα της μελέτης υπογραμμίζουν τη σημασία της σωστής διαχείρισης της ανισορροπίας των κλάσεων και της βαθμονόμησης πιθανοτήτων στην επιλογή μοντέλων πιστωτικού κινδύνου, ενώ παράλληλα προτείνονται κατευθύνσεις για μελλοντικές επεκτάσεις.