| dc.contributor.advisor | Σωτηρόπουλος, Διονύσιος | |
| dc.contributor.author | Φράγκος, Δημήτριος | |
| dc.date.accessioned | 2025-11-25T04:58:52Z | |
| dc.date.available | 2025-11-25T04:58:52Z | |
| dc.date.issued | 2025-10 | |
| dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/18552 | |
| dc.description.abstract | Η πρόβλεψη του πιστωτικού κινδύνου είναι απαραίτητη για τη λήψη χρηματοοικονομικών αποφάσεων, επιτρέποντας στα ιδρύματα να αξιολογούν την πιθανότητα αθέτησης πριν από την υποβολή προσφορών δανείων. Προκειμένου να προβλέψουμε τα αποτελέσματα των δανείων χρησιμοποιώντας το δημόσια προσβάσιμο σύνολο δεδομένων Kaggle "Credit Risk Dataset", συγκρίνουμε πέντε δημοφιλείς τεχνικές μηχανικής μάθησης: λογιστική παλινδρόμηση, Random Forest, xgboost, lightGBM και ένα νευρωνικό δίκτυο (multilayer perceptron), με το σύνολο δεδομένων να χρειάζεται εκτεταμένη προεπεξεργασία, περιλαμβάνοντας το χειρισμό των ελλιπών τιμών, την κωδικοποίηση των κατηγορικών μεταβλητών και την κανονικοποίηση των χαρακτηριστικών εισόδου, επειδή περιέχει μια ποικιλία οικονομικών και δημογραφικών χαρακτηριστικών.
Δίνοντας έμφαση στη διαχείριση της ανισορροπίας των κλάσεων, στόχος μας είναι να αξιολογήσουμε τα πλεονεκτήματα και τα μειονεκτήματα κάθε μεθόδου χρησιμοποιώντας σημαντικές μετρικές ταξινόμησης, όπως η ακρίβεια, το F1-score, η ακρίβεια-ανάκληση και η AUC, με τεχνικές ensemble όπως το Random Forest και οι αλγόριθμοι boosting όπως οι XGBoost και LightGBM να επιδιώκουν να συλλάβουν τις περίπλοκες αλληλεπιδράσεις των χαρακτηριστικών, και την λογιστική παλινδρόμηση να λειτουργεί ως βασική γραμμή. Διερευνούμε επίσης πώς τα νευρωνικά δίκτυα μπορεί να είναι σε θέση να γενικεύουν με περίπλοκα δεδομένα.
Σε μεγάλο βαθμό λόγω της αποτελεσματικής διαχείρισης της ανισορροπίας των κλάσεων και της σημασίας των χαρακτηριστικών, τα πειραματικά αποτελέσματα δείχνουν ότι τα μοντέλα ensemble boosting, ιδίως το LightGBM, επιτυγχάνουν την καλύτερη ισορροπία μεταξύ ακρίβειας και ανάκλησης, υπερτερώντας έναντι άλλων μοντέλων σε F1-score και AUC, ενώ οι μέθοδοι gradient boosting παρέχουν μια ισχυρή μέθοδο για δεδομένα πιστωτικού κινδύνου σε πίνακες και πρέπει να μελετηθούν προσεκτικά σε συστήματα αξιολόγησης πιστοληπτικής ικανότητας στον πραγματικό κόσμο. | el |
| dc.format.extent | 59 | el |
| dc.language.iso | el | el |
| dc.publisher | Πανεπιστήμιο Πειραιώς | el |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.title | Συγκριτική μελέτη μεθοδολογιών μηχανικής μάθησης για την πρόγνωση της έκβασης δανείων | el |
| dc.title.alternative | Comparative study of machine learning approaches for the loan outcome prediction problem | el |
| dc.type | Master Thesis | el |
| dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
| dc.description.abstractEN | Credit risk prediction is essential for financial decision-making, allowing institutions to assess the likelihood of default before offering loans. In order to predict loan outcomes using the publicly available Kaggle "Credit Risk Dataset," we compare five popular machine learning techniques: logistic regression, Random Forest, xgboost, lightGBM, and a neural network (multilayer perceptron), with the dataset requiring extensive preprocessing, including handling missing values, encoding categorical variables, and normalizing input features, because it contains a variety of financial and demographic features.
With an emphasis on handling class imbalance, our goal is to evaluate the advantages and disadvantages of each method using important classification metrics such as accuracy, F1-score, precision-recall, and AUC, with ensemble techniques such as Random Forest and boosting algorithms such as XGBoost and LightGBM seeking to capture the complex interactions of features, and logistic regression serving as a baseline. We also investigate how neural networks may be able to generalize with complex data.
Largely due to the effective handling of class imbalance and feature importance, the experimental results show that ensemble boosting models, especially LightGBM, achieve the best balance between accuracy and recall, outperforming other models in F1-score and AUC, while gradient boosting methods provide a powerful method for tabular credit risk data and should be carefully studied in real-world credit scoring systems. | el |
| dc.contributor.master | Κυβερνοασφάλεια και Επιστήμη Δεδομένων | el |
| dc.subject.keyword | Credit risk prediction | el |
| dc.subject.keyword | Logistic regression | el |
| dc.subject.keyword | Random forest | el |
| dc.subject.keyword | XGBoost | el |
| dc.subject.keyword | LightGBM | el |
| dc.subject.keyword | Neural network | el |
| dc.subject.keyword | Πρόβλεψη πιστωτικού κινδύνου | el |
| dc.subject.keyword | Δάνεια | el |
| dc.subject.keyword | Loans | el |
| dc.subject.keyword | Μηχανική μάθηση | el |
| dc.subject.keyword | Λογιστική παλινδρόμηση | el |
| dc.subject.keyword | Αξιολόγηση πιστοληπτικής ικανότητας | el |
| dc.date.defense | 2025-10-20 | |