Εμφάνιση απλής εγγραφής

Σύγκριση αλγορίθμων μηχανικής μάθησης στην εκτίμηση πιστωτικού κινδύνου

dc.contributor.advisorΣωτηρόπουλος, Διονύσιος
dc.contributor.authorΣύρμος, Ηλίας
dc.date.accessioned2024-11-28T10:23:33Z
dc.date.available2024-11-28T10:23:33Z
dc.date.issued2024-10
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/17136
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/4559
dc.description.abstractΗ αξιολόγηση πιστωτικού κινδύνου αποτελεί κρίσιμο ζήτημα για τα χρηματοπιστωτικά ιδρύματα, καθώς η ακριβής εκτίμηση της πιθανότητας αθέτησης ενός δανείου είναι απαραίτητη για την αποφυγή οικονομικών απωλειών. Στην παρούσα μελέτη, η αξιολόγηση πιστωτικού κινδύνου αντιμετωπίζεται ως ένα πρόβλημα δυαδικής ταξινόμησης μεταξύ των κατηγοριών (α) δανειοληπτών που αθετούν και (β) που δεν αθετούν. Χρησιμοποιείται το σύνολο πραγματικών δεδομένων "Home Credit Default Risk" της πλατοφόρμας Kaggle με στόχο την εκπαίδευση και τη σύγκριση της απόδοσης των μοντέλων μηχανικής μάθησης, Logistic Regression, Random Forest, XGBoost και LightGBM, για την εκτίμηση της πιστοληπτικής ικανότητας των δανειοληπτών. Προηγήθηκε διερευνητική ανάλυση και επεξεργασία των δεδομένων όπως και δημιουργία χαρακτηριστικών για να εμπλουτιστούν τα δεδομένα και να βελτιωθεί η απόδοση των μοντέλων. Παράλληλα, χρησιμοποιήθηκαν τεχνικές επιλογής χαρακτηριστικών, με βάση τη σημαντικότητα τους μέσω του LightGBM, ενώ εξετάστηκε και η εφαρμογή της PCA για τη μείωση της διάστασης των χαρακτηριστικών. Στο σύνολο των δεδομένων παρατηρήθηκε μεγάλη ανισορροπία μεταξύ των δυο κατηγοριών, με την πλειοψηφία των δανειοληπτών να μην αθετούν, κάτι που οδήγησε στην δοκιμή τεχνικών εξισορρόπησης όπως η SMOTE και η SMOTEENN, προκειμένου να βελτιωθεί η ικανότητα των μοντέλων να αναγνωρίσουν αυτούς που αθετούν. Για την επικύρωση των αποτελεσμάτων χρησιμοποιήθηκε η μέθοδος Stratified ΚFold ενώ οι επιδόσεις των μοντέλων αξιολογήθηκαν με την χρήση του Confusion Matrix και των παραμέτρων αξιολόγησης ROC-AUC, F1-Score, Precision και Recall, με το μοντέλο LightGBM να αποδεικνύεται ως το πιο αποδοτικό στην πλειονότητα των δοκιμών επιτυγχάνοντας ακρίβεια πρόβλεψης (ROC-AUC=0.7865) και την ανίχνευση περιπτώσεων αθέτησης (Recall=0.67). Ωστόσο, παρά το γεγονός ότι το LightGBM απέδωσε καλύτερα σε σύγκριση με τα υπόλοιπα μοντέλα, τα συνολικά αποτελέσματα παραμένουν μη ικανοποιητικά, καθώς τα μοντέλα δεν είναι ικανά να διαχωρίσουν επαρκώς τις κατηγορίες, λόγω της έντονης ανισορροπίας. Η δυσκολία αυτή υπογραμμίζει την ανάγκη για διερεύνηση πιο εξειδικευμένων τεχνικών εξισορρόπησης και τη χρήση μεθόδων μηχανικής μάθησης, ικανών να αντιμετωπίσουν καλύτερα προβλήματα ανισορροπίας. Η υιοθέτηση αυτόματων τεχνικών δημιουργίας χαρακτηριστικών και η βελτιστοποίηση των υπερπαραμέτρων των μοντέλων θα μπορούσαν να οδηγήσουν σε σημαντικές βελτιώσεις στην απόδοση τους, με αποτέλεσμα τη βελτίωση των προβλέψεων και την καλύτερη διαχείριση του πιστωτικού κινδύνου.el
dc.format.extent125el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleΣύγκριση αλγορίθμων μηχανικής μάθησης στην εκτίμηση πιστωτικού κινδύνουel
dc.title.alternativeComparison of machine learning algorithms in credit risk assessmentel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENCredit risk assessment is a critical issue for financial institutions, as an accurate assessment of the probability of default on a loan is essential to avoid financial losses. In this study, credit risk assessment is treated as a binary classification problem between the categories of (a) defaulting and (b) non-defaulting borrowers. The dataset "Home Credit Default Risk" which contains real data from the Kaggle platform is used to train and compare the performance of the machine learning models, Logistic Regression, Random Forest, XGBoost and LightGBM, in order to assess the creditworthiness of borrowers. This was preceded by exploratory data analysis and data preprocessing as well as feature generation to enrich the data and improve the performance of the models. In addition, feature selection techniques were used based on the feature importance through the use of LightGBM, and the application of PCA to reduce the dimensionality of the features was also considered. In the dataset there was a large class imbalance between the two categories, with the majority of borrowers not defaulting, which led to the testing of balancing techniques such as SMOTE and SMOTEENN to improve the models' ability to identify those who default. For the validation of the results we used the Stratified KFold method while the performance of the models was evaluated using the Confusion Matrix and other metrics as the ROC-AUC, F1-Score, Precision and Recall, with the LightGBM model proving to be the most efficient in the majority of the tests achieving prediction accuracy (ROC-AUC=0. 7865) and detecting instances of default (Recall=0.67). However, although LightGBM performed better compared to the other models, the overall results remain unsatisfactory as the models are not able to adequately identify the categories due to the strong imbalance. This difficulty highlights the need to explore more specialized balancing techniques and the use of machine learning methods capable of better addressing class imbalance problems. The adoption of automatic feature generation techniques and optimization of model hyperparameters could lead to significant improvements in model performance, resulting in improved forecasting and better credit risk management.el
dc.contributor.masterΠληροφορικήel
dc.subject.keywordμηχανική μάθησηel
dc.subject.keywordπιστωτικός κίνδυνοςel
dc.subject.keywordανισορροπία κατηγοριώνel
dc.date.defense2024


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»