Εμφάνιση απλής εγγραφής

Συγκριτική μελέτη μεθοδολογιών μηχανικής μάθησης για την πρόγνωση της έκβασης δανείων

dc.contributor.advisorΣωτηρόπουλος, Διονύσιος
dc.contributor.authorΦράγκος, Δημήτριος
dc.date.accessioned2025-11-25T04:58:52Z
dc.date.available2025-11-25T04:58:52Z
dc.date.issued2025-10
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/18552
dc.description.abstractΗ πρόβλεψη του πιστωτικού κινδύνου είναι απαραίτητη για τη λήψη χρηματοοικονομικών αποφάσεων, επιτρέποντας στα ιδρύματα να αξιολογούν την πιθανότητα αθέτησης πριν από την υποβολή προσφορών δανείων. Προκειμένου να προβλέψουμε τα αποτελέσματα των δανείων χρησιμοποιώντας το δημόσια προσβάσιμο σύνολο δεδομένων Kaggle "Credit Risk Dataset", συγκρίνουμε πέντε δημοφιλείς τεχνικές μηχανικής μάθησης: λογιστική παλινδρόμηση, Random Forest, xgboost, lightGBM και ένα νευρωνικό δίκτυο (multilayer perceptron), με το σύνολο δεδομένων να χρειάζεται εκτεταμένη προεπεξεργασία, περιλαμβάνοντας το χειρισμό των ελλιπών τιμών, την κωδικοποίηση των κατηγορικών μεταβλητών και την κανονικοποίηση των χαρακτηριστικών εισόδου, επειδή περιέχει μια ποικιλία οικονομικών και δημογραφικών χαρακτηριστικών. Δίνοντας έμφαση στη διαχείριση της ανισορροπίας των κλάσεων, στόχος μας είναι να αξιολογήσουμε τα πλεονεκτήματα και τα μειονεκτήματα κάθε μεθόδου χρησιμοποιώντας σημαντικές μετρικές ταξινόμησης, όπως η ακρίβεια, το F1-score, η ακρίβεια-ανάκληση και η AUC, με τεχνικές ensemble όπως το Random Forest και οι αλγόριθμοι boosting όπως οι XGBoost και LightGBM να επιδιώκουν να συλλάβουν τις περίπλοκες αλληλεπιδράσεις των χαρακτηριστικών, και την λογιστική παλινδρόμηση να λειτουργεί ως βασική γραμμή. Διερευνούμε επίσης πώς τα νευρωνικά δίκτυα μπορεί να είναι σε θέση να γενικεύουν με περίπλοκα δεδομένα. Σε μεγάλο βαθμό λόγω της αποτελεσματικής διαχείρισης της ανισορροπίας των κλάσεων και της σημασίας των χαρακτηριστικών, τα πειραματικά αποτελέσματα δείχνουν ότι τα μοντέλα ensemble boosting, ιδίως το LightGBM, επιτυγχάνουν την καλύτερη ισορροπία μεταξύ ακρίβειας και ανάκλησης, υπερτερώντας έναντι άλλων μοντέλων σε F1-score και AUC, ενώ οι μέθοδοι gradient boosting παρέχουν μια ισχυρή μέθοδο για δεδομένα πιστωτικού κινδύνου σε πίνακες και πρέπει να μελετηθούν προσεκτικά σε συστήματα αξιολόγησης πιστοληπτικής ικανότητας στον πραγματικό κόσμο.el
dc.format.extent59el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleΣυγκριτική μελέτη μεθοδολογιών μηχανικής μάθησης για την πρόγνωση της έκβασης δανείωνel
dc.title.alternativeComparative study of machine learning approaches for the loan outcome prediction problemel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENCredit risk prediction is essential for financial decision-making, allowing institutions to assess the likelihood of default before offering loans. In order to predict loan outcomes using the publicly available Kaggle "Credit Risk Dataset," we compare five popular machine learning techniques: logistic regression, Random Forest, xgboost, lightGBM, and a neural network (multilayer perceptron), with the dataset requiring extensive preprocessing, including handling missing values, encoding categorical variables, and normalizing input features, because it contains a variety of financial and demographic features. With an emphasis on handling class imbalance, our goal is to evaluate the advantages and disadvantages of each method using important classification metrics such as accuracy, F1-score, precision-recall, and AUC, with ensemble techniques such as Random Forest and boosting algorithms such as XGBoost and LightGBM seeking to capture the complex interactions of features, and logistic regression serving as a baseline. We also investigate how neural networks may be able to generalize with complex data. Largely due to the effective handling of class imbalance and feature importance, the experimental results show that ensemble boosting models, especially LightGBM, achieve the best balance between accuracy and recall, outperforming other models in F1-score and AUC, while gradient boosting methods provide a powerful method for tabular credit risk data and should be carefully studied in real-world credit scoring systems.el
dc.contributor.masterΚυβερνοασφάλεια και Επιστήμη Δεδομένωνel
dc.subject.keywordCredit risk predictionel
dc.subject.keywordLogistic regressionel
dc.subject.keywordRandom forestel
dc.subject.keywordXGBoostel
dc.subject.keywordLightGBMel
dc.subject.keywordNeural networkel
dc.subject.keywordΠρόβλεψη πιστωτικού κινδύνουel
dc.subject.keywordΔάνειαel
dc.subject.keywordLoansel
dc.subject.keywordΜηχανική μάθησηel
dc.subject.keywordΛογιστική παλινδρόμησηel
dc.subject.keywordΑξιολόγηση πιστοληπτικής ικανότηταςel
dc.date.defense2025-10-20


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»