Data analysis and prediction algorithms with Python

Master Thesis
Συγγραφέας
Voulgari, Evangelia
Βούλγαρη, Ευαγγελία
Ημερομηνία
2025-02Επιβλέπων
Filippakis, MichaelΦιλιππάκης, Μιχαήλ
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Data analysis ; Prediction algorithms ; Python ; Healthcare data ; Machine learningΠερίληψη
Με τη ραγδαία αύξηση των δεδομένων, ο τομέας της ανάλυσης δεδομένων αναπτύχθηκε επίσης, ιδιαίτερα στον τομέα της υγειονομικής περίθαλψης. Οι καρδιακές παθήσεις αποτελούν μία από τις κύριες αιτίες θανάτου παγκοσμίως, γεγονός που καθιστά την έγκαιρη ανίχνευση ζωτικής σημασίας.
Οι παραδοσιακές μέθοδοι διάγνωσης των καρδιακών παθήσεων συχνά απαιτούν ακριβές και χρονοβόρες ιατρικές εξετάσεις, οι οποίες δεν εγγυώνται πάντα ακριβή αποτελέσματα. Από την άλλη πλευρά, η μηχανική μάθηση προσφέρει έναν ταχύτερο και πιο αποδοτικό τρόπο ανάλυσης των δεδομένων των ασθενών και πρόβλεψης του κινδύνου καρδιοπάθειας.
Η παρούσα εργασία εξετάζει την εφαρμογή της ανάλυσης δεδομένων με Python και αλγορίθμων μηχανικής μάθησης για την πρόβλεψη καρδιακών παθήσεων. Το σύνολο δεδομένων που χρησιμοποιείται περιλαμβάνει βασικά ιατρικά χαρακτηριστικά. Σε αυτό το σύνολο δεδομένων εφαρμόζονται τεχνικές προεπεξεργασίας όπως καθαρισμός δεδομένων, κανονικοποίηση και κωδικοποίηση χαρακτηριστικών, ώστε τα δεδομένα να είναι κατάλληλα για περαιτέρω επεξεργασία. Επιπλέον, πραγματοποιείται Εξερευνητική Ανάλυση Δεδομένων (EDA) για την αναγνώριση προτύπων και συσχετίσεων μεταξύ των χαρακτηριστικών.
Η μελέτη υλοποιεί και συγκρίνει δύο μοντέλα μηχανικής μάθησης: τον Random Forest Classifier, που ανήκει στις επιβλεπόμενες μεθόδους μάθησης, και τον K-Means Clustering, που είναι μία μη επιβλεπόμενη μέθοδος. Η απόδοση των μοντέλων αξιολογείται μέσω βασικών μετρικών, όπως η ακρίβεια (accuracy), η ακρίβεια προβλέψεων (precision), η ανάκληση (recall) και ο δείκτης F1 (F1-score).
Τα ευρήματα αυτής της έρευνας δείχνουν ότι τα μοντέλα μηχανικής μάθησης, και ιδιαίτερα ο Random Forest Classifier, μπορούν να προβλέψουν αποτελεσματικά την καρδιοπάθεια με υψηλή ακρίβεια. Η ανάλυση της σημασίας των χαρακτηριστικών ανέδειξε βασικούς παράγοντες κινδύνου, όπως η ηλικία, τα επίπεδα χοληστερόλης, η αρτηριακή πίεση και ο τύπος πόνου στο στήθος, επιβεβαιώνοντας τη σημασία τους στη διάγνωση καρδιοπαθειών.
Η μελέτη υπογραμμίζει τη δυναμική ενσωμάτωσης μοντέλων μηχανικής μάθησης στα συστήματα υγείας, με σκοπό την έγκαιρη διάγνωση, τη μείωση του κόστους και τη βελτίωση των αποτελεσμάτων για τους ασθενείς. Μελλοντική έρευνα θα μπορούσε να εξετάσει τεχνικές βαθιάς μάθησης, παρακολούθηση ασθενών σε πραγματικό χρόνο μέσω φορετής τεχνολογίας και ενσωμάτωση προβλεπτικών μοντέλων σε συστήματα υποστήριξης ιατρικών αποφάσεων.
Αυτή η εργασία συμβάλλει στην έρευνα για τη χρήση της Τεχνητής Νοημοσύνης (AI) στην υγειονομική περίθαλψη, δείχνοντας πώς η ανάλυση δεδομένων μπορεί να βοηθήσει στη βελτίωση της διάγνωσης καρδιοπαθειών.