Συγκριτική μελέτη μεθοδολογιών μηχανικής μάθησης για την πρόγνωση της έκβασης δανείων

Φράγκος, Δημήτριος

dc.contributor.advisor	Σωτηρόπουλος, Διονύσιος
dc.contributor.author	Φράγκος, Δημήτριος
dc.date.accessioned	2025-11-25T04:58:52Z
dc.date.available	2025-11-25T04:58:52Z
dc.date.issued	2025-10
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/18552
dc.description.abstract	Η πρόβλεψη του πιστωτικού κινδύνου είναι απαραίτητη για τη λήψη χρηματοοικονομικών αποφάσεων, επιτρέποντας στα ιδρύματα να αξιολογούν την πιθανότητα αθέτησης πριν από την υποβολή προσφορών δανείων. Προκειμένου να προβλέψουμε τα αποτελέσματα των δανείων χρησιμοποιώντας το δημόσια προσβάσιμο σύνολο δεδομένων Kaggle "Credit Risk Dataset", συγκρίνουμε πέντε δημοφιλείς τεχνικές μηχανικής μάθησης: λογιστική παλινδρόμηση, Random Forest, xgboost, lightGBM και ένα νευρωνικό δίκτυο (multilayer perceptron), με το σύνολο δεδομένων να χρειάζεται εκτεταμένη προεπεξεργασία, περιλαμβάνοντας το χειρισμό των ελλιπών τιμών, την κωδικοποίηση των κατηγορικών μεταβλητών και την κανονικοποίηση των χαρακτηριστικών εισόδου, επειδή περιέχει μια ποικιλία οικονομικών και δημογραφικών χαρακτηριστικών. Δίνοντας έμφαση στη διαχείριση της ανισορροπίας των κλάσεων, στόχος μας είναι να αξιολογήσουμε τα πλεονεκτήματα και τα μειονεκτήματα κάθε μεθόδου χρησιμοποιώντας σημαντικές μετρικές ταξινόμησης, όπως η ακρίβεια, το F1-score, η ακρίβεια-ανάκληση και η AUC, με τεχνικές ensemble όπως το Random Forest και οι αλγόριθμοι boosting όπως οι XGBoost και LightGBM να επιδιώκουν να συλλάβουν τις περίπλοκες αλληλεπιδράσεις των χαρακτηριστικών, και την λογιστική παλινδρόμηση να λειτουργεί ως βασική γραμμή. Διερευνούμε επίσης πώς τα νευρωνικά δίκτυα μπορεί να είναι σε θέση να γενικεύουν με περίπλοκα δεδομένα. Σε μεγάλο βαθμό λόγω της αποτελεσματικής διαχείρισης της ανισορροπίας των κλάσεων και της σημασίας των χαρακτηριστικών, τα πειραματικά αποτελέσματα δείχνουν ότι τα μοντέλα ensemble boosting, ιδίως το LightGBM, επιτυγχάνουν την καλύτερη ισορροπία μεταξύ ακρίβειας και ανάκλησης, υπερτερώντας έναντι άλλων μοντέλων σε F1-score και AUC, ενώ οι μέθοδοι gradient boosting παρέχουν μια ισχυρή μέθοδο για δεδομένα πιστωτικού κινδύνου σε πίνακες και πρέπει να μελετηθούν προσεκτικά σε συστήματα αξιολόγησης πιστοληπτικής ικανότητας στον πραγματικό κόσμο.	el
dc.format.extent	59	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Συγκριτική μελέτη μεθοδολογιών μηχανικής μάθησης για την πρόγνωση της έκβασης δανείων	el
dc.title.alternative	Comparative study of machine learning approaches for the loan outcome prediction problem	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής	el
dc.description.abstractEN	Credit risk prediction is essential for financial decision-making, allowing institutions to assess the likelihood of default before offering loans. In order to predict loan outcomes using the publicly available Kaggle "Credit Risk Dataset," we compare five popular machine learning techniques: logistic regression, Random Forest, xgboost, lightGBM, and a neural network (multilayer perceptron), with the dataset requiring extensive preprocessing, including handling missing values, encoding categorical variables, and normalizing input features, because it contains a variety of financial and demographic features. With an emphasis on handling class imbalance, our goal is to evaluate the advantages and disadvantages of each method using important classification metrics such as accuracy, F1-score, precision-recall, and AUC, with ensemble techniques such as Random Forest and boosting algorithms such as XGBoost and LightGBM seeking to capture the complex interactions of features, and logistic regression serving as a baseline. We also investigate how neural networks may be able to generalize with complex data. Largely due to the effective handling of class imbalance and feature importance, the experimental results show that ensemble boosting models, especially LightGBM, achieve the best balance between accuracy and recall, outperforming other models in F1-score and AUC, while gradient boosting methods provide a powerful method for tabular credit risk data and should be carefully studied in real-world credit scoring systems.	el
dc.contributor.master	Κυβερνοασφάλεια και Επιστήμη Δεδομένων	el
dc.subject.keyword	Credit risk prediction	el
dc.subject.keyword	Logistic regression	el
dc.subject.keyword	Random forest	el
dc.subject.keyword	XGBoost	el
dc.subject.keyword	LightGBM	el
dc.subject.keyword	Neural network	el
dc.subject.keyword	Πρόβλεψη πιστωτικού κινδύνου	el
dc.subject.keyword	Δάνεια	el
dc.subject.keyword	Loans	el
dc.subject.keyword	Μηχανική μάθηση	el
dc.subject.keyword	Λογιστική παλινδρόμηση	el
dc.subject.keyword	Αξιολόγηση πιστοληπτικής ικανότητας	el
dc.date.defense	2025-10-20

Αρχεία σε αυτό το τεκμήριο

Name:: Fragkos_mpked21057.pdf
Μέγεθος:: 1.295Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Πληροφορικής
Department of Informatics

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα