Εφαρμογή τεχνικών εξόρυξης γνώσης σε οικονομικά δεδομένα – Πλεονεκτήματα και μειονεκτήματα σε μια τράπεζα και στις πιστωτικές με χρήση Python

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Big data ; Machine learning ; Data miningΠερίληψη
Η παρούσα διπλωματική εργασία εξετάζει την εφαρμογή τεχνικών εξόρυξης γνώσης και μηχανικής μάθησης σε οικονομικά δεδομένα, επικεντρωμένη ειδικά στον τραπεζικό τομέα και στη διαχείριση πιστωτικού κινδύνου. Βασικός στόχος είναι η αξιοποίηση μεγάλων συνόλων δεδομένων για την εξαγωγή χρήσιμης γνώσης που μπορεί να υποστηρίξει καλύτερες στρατηγικές λήψης αποφάσεων, βελτιώνοντας παράλληλα τη διαχείριση ρίσκου και την απόδοση τραπεζικών προϊόντων.
Για την υλοποίηση, χρησιμοποιήθηκαν δύο δημόσια διαθέσιμα σύνολα δεδομένων: το Bank Marketing Dataset, που αφορά τη στόχευση πελατών σε τραπεζικά προϊόντα μέσω καμπανιών μάρκετινγκ, και το Default of Credit Card Clients Dataset , το οποίο σχετίζεται με την πρόβλεψη αθέτησης πληρωμών από πελάτες πιστωτικών καρτών. Τα δεδομένα προεπεξεργάστηκαν με τεχνικές μετασχηματισμού, όπως το One-Hot Encoding για τις κατηγορικές μεταβλητές και κανονικοποίηση για τις αριθμητικές.
Η ανισορροπία δεδομένων αντιμετωπίστηκε με τις μεθόδους SMOTE (Synthetic Minority Oversampling Technique) και Random Undersampling, προκειμένου να ενισχυθεί η ακρίβεια των ταξινομητών στις υποεκπροσωπούμενες κατηγορίες. Για τη δημιουργία μοντέλων χρησιμοποιήθηκαν αλγόριθμοι επιβλεπόμενης μάθησης, όπως Random Forest, Logistic Regression και Gradient Boosting. Τα αποτελέσματα αξιολογήθηκαν με βάση μετρικές όπως Accuracy, Precision, Recall, F1-Score και ROC-AUC.
Στο σύνολο δεδομένων Bank Marketing, ο Random Forest επέδειξε ROC-AUC 0.92 με υψηλή σταθερότητα, ενώ ο Gradient Boosting προσέγγισε το 0.91. Στο σύνολο δεδομένων πιστωτικών καρτών, οι βέλτιστες αποδόσεις επιτεύχθηκαν και πάλι με Random Forest και Gradient Boosting, αναδεικνύοντας την ευελιξία και αποτελεσματικότητα αυτών των αλγορίθμων στη διαχείριση πολύπλοκων οικονομικών δεδομένων.
Η εργασία καταλήγει στο συμπέρασμα ότι η συνδυαστική χρήση τεχνικών προεπεξεργασίας και προηγμένων μοντέλων μηχανικής μάθησης προσφέρει σημαντικές δυνατότητες βελτίωσης της ακρίβειας πρόβλεψης σε πραγματικές τραπεζικές εφαρμογές. Επιπλέον, παρέχονται προτάσεις για περαιτέρω έρευνα με χρήση πραγματικών τραπεζικών δεδομένων και μελέτη πιο εξελιγμένων μεθόδων βαθιάς μάθησης.

