Συγκριτική μελέτη μεθοδολογιών μηχανικής μάθησης για την πρόγνωση της έκβασης δανείων
Comparative study of machine learning approaches for the loan outcome prediction problem

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Credit risk prediction ; Logistic regression ; Random forest ; XGBoost ; LightGBM ; Neural network ; Πρόβλεψη πιστωτικού κινδύνου ; Δάνεια ; Loans ; Μηχανική μάθηση ; Λογιστική παλινδρόμηση ; Αξιολόγηση πιστοληπτικής ικανότηταςΠερίληψη
Η πρόβλεψη του πιστωτικού κινδύνου είναι απαραίτητη για τη λήψη χρηματοοικονομικών αποφάσεων, επιτρέποντας στα ιδρύματα να αξιολογούν την πιθανότητα αθέτησης πριν από την υποβολή προσφορών δανείων. Προκειμένου να προβλέψουμε τα αποτελέσματα των δανείων χρησιμοποιώντας το δημόσια προσβάσιμο σύνολο δεδομένων Kaggle "Credit Risk Dataset", συγκρίνουμε πέντε δημοφιλείς τεχνικές μηχανικής μάθησης: λογιστική παλινδρόμηση, Random Forest, xgboost, lightGBM και ένα νευρωνικό δίκτυο (multilayer perceptron), με το σύνολο δεδομένων να χρειάζεται εκτεταμένη προεπεξεργασία, περιλαμβάνοντας το χειρισμό των ελλιπών τιμών, την κωδικοποίηση των κατηγορικών μεταβλητών και την κανονικοποίηση των χαρακτηριστικών εισόδου, επειδή περιέχει μια ποικιλία οικονομικών και δημογραφικών χαρακτηριστικών.
Δίνοντας έμφαση στη διαχείριση της ανισορροπίας των κλάσεων, στόχος μας είναι να αξιολογήσουμε τα πλεονεκτήματα και τα μειονεκτήματα κάθε μεθόδου χρησιμοποιώντας σημαντικές μετρικές ταξινόμησης, όπως η ακρίβεια, το F1-score, η ακρίβεια-ανάκληση και η AUC, με τεχνικές ensemble όπως το Random Forest και οι αλγόριθμοι boosting όπως οι XGBoost και LightGBM να επιδιώκουν να συλλάβουν τις περίπλοκες αλληλεπιδράσεις των χαρακτηριστικών, και την λογιστική παλινδρόμηση να λειτουργεί ως βασική γραμμή. Διερευνούμε επίσης πώς τα νευρωνικά δίκτυα μπορεί να είναι σε θέση να γενικεύουν με περίπλοκα δεδομένα.
Σε μεγάλο βαθμό λόγω της αποτελεσματικής διαχείρισης της ανισορροπίας των κλάσεων και της σημασίας των χαρακτηριστικών, τα πειραματικά αποτελέσματα δείχνουν ότι τα μοντέλα ensemble boosting, ιδίως το LightGBM, επιτυγχάνουν την καλύτερη ισορροπία μεταξύ ακρίβειας και ανάκλησης, υπερτερώντας έναντι άλλων μοντέλων σε F1-score και AUC, ενώ οι μέθοδοι gradient boosting παρέχουν μια ισχυρή μέθοδο για δεδομένα πιστωτικού κινδύνου σε πίνακες και πρέπει να μελετηθούν προσεκτικά σε συστήματα αξιολόγησης πιστοληπτικής ικανότητας στον πραγματικό κόσμο.


