Σύγκριση αλγορίθμων μηχανικής μάθησης στην εκτίμηση πιστωτικού κινδύνου
Comparison of machine learning algorithms in credit risk assessment
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
μηχανική μάθηση ; πιστωτικός κίνδυνος ; ανισορροπία κατηγοριώνΠερίληψη
Η αξιολόγηση πιστωτικού κινδύνου αποτελεί κρίσιμο ζήτημα για τα χρηματοπιστωτικά
ιδρύματα, καθώς η ακριβής εκτίμηση της πιθανότητας αθέτησης ενός δανείου είναι
απαραίτητη για την αποφυγή οικονομικών απωλειών. Στην παρούσα μελέτη, η αξιολόγηση
πιστωτικού κινδύνου αντιμετωπίζεται ως ένα πρόβλημα δυαδικής ταξινόμησης μεταξύ των
κατηγοριών (α) δανειοληπτών που αθετούν και (β) που δεν αθετούν. Χρησιμοποιείται το
σύνολο πραγματικών δεδομένων "Home Credit Default Risk" της πλατοφόρμας Kaggle με
στόχο την εκπαίδευση και τη σύγκριση της απόδοσης των μοντέλων μηχανικής μάθησης,
Logistic Regression, Random Forest, XGBoost και LightGBM, για την εκτίμηση της
πιστοληπτικής ικανότητας των δανειοληπτών. Προηγήθηκε διερευνητική ανάλυση και
επεξεργασία των δεδομένων όπως και δημιουργία χαρακτηριστικών για να εμπλουτιστούν
τα δεδομένα και να βελτιωθεί η απόδοση των μοντέλων. Παράλληλα, χρησιμοποιήθηκαν
τεχνικές επιλογής χαρακτηριστικών, με βάση τη σημαντικότητα τους μέσω του LightGBM,
ενώ εξετάστηκε και η εφαρμογή της PCA για τη μείωση της διάστασης των χαρακτηριστικών.
Στο σύνολο των δεδομένων παρατηρήθηκε μεγάλη ανισορροπία μεταξύ των δυο
κατηγοριών, με την πλειοψηφία των δανειοληπτών να μην αθετούν, κάτι που οδήγησε στην
δοκιμή τεχνικών εξισορρόπησης όπως η SMOTE και η SMOTEENN, προκειμένου να
βελτιωθεί η ικανότητα των μοντέλων να αναγνωρίσουν αυτούς που αθετούν. Για την
επικύρωση των αποτελεσμάτων χρησιμοποιήθηκε η μέθοδος Stratified ΚFold ενώ οι
επιδόσεις των μοντέλων αξιολογήθηκαν με την χρήση του Confusion Matrix και των
παραμέτρων αξιολόγησης ROC-AUC, F1-Score, Precision και Recall, με το μοντέλο
LightGBM να αποδεικνύεται ως το πιο αποδοτικό στην πλειονότητα των δοκιμών
επιτυγχάνοντας ακρίβεια πρόβλεψης (ROC-AUC=0.7865) και την ανίχνευση περιπτώσεων
αθέτησης (Recall=0.67). Ωστόσο, παρά το γεγονός ότι το LightGBM απέδωσε καλύτερα σε
σύγκριση με τα υπόλοιπα μοντέλα, τα συνολικά αποτελέσματα παραμένουν μη
ικανοποιητικά, καθώς τα μοντέλα δεν είναι ικανά να διαχωρίσουν επαρκώς τις κατηγορίες,
λόγω της έντονης ανισορροπίας. Η δυσκολία αυτή υπογραμμίζει την ανάγκη για διερεύνηση
πιο εξειδικευμένων τεχνικών εξισορρόπησης και τη χρήση μεθόδων μηχανικής μάθησης,
ικανών να αντιμετωπίσουν καλύτερα προβλήματα ανισορροπίας. Η υιοθέτηση αυτόματων
τεχνικών δημιουργίας χαρακτηριστικών και η βελτιστοποίηση των υπερπαραμέτρων των
μοντέλων θα μπορούσαν να οδηγήσουν σε σημαντικές βελτιώσεις στην απόδοση τους, με
αποτέλεσμα τη βελτίωση των προβλέψεων και την καλύτερη διαχείριση του πιστωτικού
κινδύνου.