Εφαρμογή τεχνικών εξόρυξης γνώσης σε οικονομικά δεδομένα – Πλεονεκτήματα και μειονεκτήματα σε μια τράπεζα και στις πιστωτικές με χρήση Python

Σδράλια, Ιλιάνα Ελένη

dc.contributor.advisor	Φιλιππάκης, Μιχαήλ
dc.contributor.author	Σδράλια, Ιλιάνα Ελένη
dc.date.accessioned	2026-03-23T12:27:40Z
dc.date.available	2026-03-23T12:27:40Z
dc.date.issued	2025
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/19044
dc.description.abstract	Η παρούσα διπλωματική εργασία εξετάζει την εφαρμογή τεχνικών εξόρυξης γνώσης και μηχανικής μάθησης σε οικονομικά δεδομένα, επικεντρωμένη ειδικά στον τραπεζικό τομέα και στη διαχείριση πιστωτικού κινδύνου. Βασικός στόχος είναι η αξιοποίηση μεγάλων συνόλων δεδομένων για την εξαγωγή χρήσιμης γνώσης που μπορεί να υποστηρίξει καλύτερες στρατηγικές λήψης αποφάσεων, βελτιώνοντας παράλληλα τη διαχείριση ρίσκου και την απόδοση τραπεζικών προϊόντων. Για την υλοποίηση, χρησιμοποιήθηκαν δύο δημόσια διαθέσιμα σύνολα δεδομένων: το Bank Marketing Dataset, που αφορά τη στόχευση πελατών σε τραπεζικά προϊόντα μέσω καμπανιών μάρκετινγκ, και το Default of Credit Card Clients Dataset , το οποίο σχετίζεται με την πρόβλεψη αθέτησης πληρωμών από πελάτες πιστωτικών καρτών. Τα δεδομένα προεπεξεργάστηκαν με τεχνικές μετασχηματισμού, όπως το One-Hot Encoding για τις κατηγορικές μεταβλητές και κανονικοποίηση για τις αριθμητικές. Η ανισορροπία δεδομένων αντιμετωπίστηκε με τις μεθόδους SMOTE (Synthetic Minority Oversampling Technique) και Random Undersampling, προκειμένου να ενισχυθεί η ακρίβεια των ταξινομητών στις υποεκπροσωπούμενες κατηγορίες. Για τη δημιουργία μοντέλων χρησιμοποιήθηκαν αλγόριθμοι επιβλεπόμενης μάθησης, όπως Random Forest, Logistic Regression και Gradient Boosting. Τα αποτελέσματα αξιολογήθηκαν με βάση μετρικές όπως Accuracy, Precision, Recall, F1-Score και ROC-AUC. Στο σύνολο δεδομένων Bank Marketing, ο Random Forest επέδειξε ROC-AUC 0.92 με υψηλή σταθερότητα, ενώ ο Gradient Boosting προσέγγισε το 0.91. Στο σύνολο δεδομένων πιστωτικών καρτών, οι βέλτιστες αποδόσεις επιτεύχθηκαν και πάλι με Random Forest και Gradient Boosting, αναδεικνύοντας την ευελιξία και αποτελεσματικότητα αυτών των αλγορίθμων στη διαχείριση πολύπλοκων οικονομικών δεδομένων. Η εργασία καταλήγει στο συμπέρασμα ότι η συνδυαστική χρήση τεχνικών προεπεξεργασίας και προηγμένων μοντέλων μηχανικής μάθησης προσφέρει σημαντικές δυνατότητες βελτίωσης της ακρίβειας πρόβλεψης σε πραγματικές τραπεζικές εφαρμογές. Επιπλέον, παρέχονται προτάσεις για περαιτέρω έρευνα με χρήση πραγματικών τραπεζικών δεδομένων και μελέτη πιο εξελιγμένων μεθόδων βαθιάς μάθησης.	el
dc.format.extent	101	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.title	Εφαρμογή τεχνικών εξόρυξης γνώσης σε οικονομικά δεδομένα – Πλεονεκτήματα και μειονεκτήματα σε μια τράπεζα και στις πιστωτικές με χρήση Python	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	This thesis examines the application of knowledge discovery and machine learning techniques to financial data, with a particular focus on the banking sector and credit risk management. Its main objective is to leverage large datasets in order to extract useful knowledge that can support improved decision-making strategies, while also enhancing risk management and the performance of banking products. For the implementation, two publicly available datasets were used: the Bank Marketing Dataset, which concerns customer targeting for banking products through marketing campaigns, and the Default of Credit Card Clients Dataset, which is related to the prediction of payment defaults by credit card customers. The data were preprocessed using transformation techniques such as One-Hot Encoding for categorical variables and normalization for numerical variables. Data imbalance was addressed using the SMOTE (Synthetic Minority Oversampling Technique) and Random Undersampling methods, in order to improve the classifiers’ accuracy on underrepresented classes. For model development, supervised learning algorithms were employed, including Random Forest, Logistic Regression, and Gradient Boosting. The results were evaluated based on metrics such as Accuracy, Precision, Recall, F1-Score, and ROC-AUC. In the Bank Marketing dataset, Random Forest achieved a ROC-AUC of 0.92 with high stability, while Gradient Boosting reached approximately 0.91. In the credit card dataset, the best performances were once again achieved by Random Forest and Gradient Boosting, highlighting the flexibility and effectiveness of these algorithms in handling complex financial data. The thesis concludes that the combined use of preprocessing techniques and advanced machine learning models offers significant potential for improving predictive accuracy in real-world banking applications. In addition, suggestions are provided for further research involving real banking data and the study of more advanced deep learning methods.	el
dc.contributor.master	Πληροφοριακά Συστήματα και Υπηρεσίες	el
dc.subject.keyword	Big data	el
dc.subject.keyword	Machine learning	el
dc.subject.keyword	Data mining	el
dc.date.defense	2025-09-02

Files in this item

Name:: Sdralia_ME2352.pdf
Size:: 2.061Mb
Format:: PDF
Description:: Μεταπτυχιακή διατριβή

View/Open

This item appears in the following Collection(s)

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Show simple item record