Πρόβλεψη διαβήτη χρησιμοποιώντας data mining αλγορίθμους και ανάλυση με Python

Master Thesis
Συγγραφέας
Μάρκου, Χρυσοβαλάντου Ευαγγελία
Ημερομηνία
2025Επιβλέπων
Φιλιππάκης, ΜιχαήλΠροβολή/ Άνοιγμα
Λέξεις κλειδιά
Data mining ; Python ; Πρόβλεψη διαβήτη ; Ανάλυση με PythonΠερίληψη
Η παρούσα διπλωματική εργασία εξετάζει τη χρήση μεθόδων μηχανικής μάθησης για την
πρόβλεψη της εμφάνισης διαβήτη. Με χρήση ενός μεγάλου συνόλου δεδομένου υγείας
πραγματοποιήθηκε εκπαίδευση μίας σειράς αλγορίθμων ταξινόμησης με σκοπό τον
εντοπισμό του μοντέλου που θα μπορούσε να πετύχει την καλύτερη πρόβλεψη.
Δοκιμάστηκαν αλγόριθμοι, όπως η Λογιστική Παλινδρόμηση, ο Random Forest, οι SVM,
ο XGBoost και ο LightGBM. Οι αλγόριθμοι αξιολογήθηκαν στη βάση τυπικών μετρικών
όπως η ακρίβεια, η ευστοχία, η ανάκληση και η καμπύλη ROC. Οι XGBoost και LightGBM
παρουσίασαν την υψηλότερη απόδοση με ακρίβεια 97%. Ενώ η χρήση τεχνικών SMOTE
αποδείχθηκε αρκετά αποτελεσματική στη βελτίωση της ικανότητας πρόβλεψης των
εκπαιδευμένων μοντέλων συνολικά. Τέλος, η ανάπτυξη ενός API που επιτρέπει την
αυτόματη διάγνωση με βάση τα δεδομένα εισόδου περιπτώσεων ασθενών, υποδεικνύει την
άμεση εφαρμοσιμότητα και επεκτασιμότητα της μελέτης, καθώς και τον τρόπο που αυτή
θα μπορούσε να καταστεί μέρος ευρύτερων πληροφοριακών εφαρμογών πραγματικής
χρήσης στο πεδίο της κλινικής πρακτικής.