Διάγνωση διαβήτη με χρήση αλγορίθμων μηχανικής μάθησης
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Διάγνωση διαβήτη ; R ; WEKA ; Μηχανική μάθηση ; Σύνολο δεδομένων PIMA Indians ; Εποπτευόμενη μάθησηΠερίληψη
Η ιλιγγιώδης εξέλιξη της επιστήμης των δεδομένων, τις τελευταίες δεκαετίες, καθώς και η εξειδίκευσή της στο χώρο των μεγάλων δεδομένων, αποτέλεσε ένα σημαντικό εργαλείο για το σύνολο των επιστημών, θετικών, φυσικών, ανθρωπιστικών και κοινωνικών. Οι επιστήμες αυτές από τη μία «χρησιμοποίησαν» την επιστήμη των μεγάλων δεδομένων, προκειμένου να εξελιχθούν και να βελτιώσουν τα εμπειρικά τους αποτελέσματα, και από την άλλη αποτέλεσαν πηγή δεδομένων που εφοδίασε την επιστήμη των μεγάλων δεδομένων με πληθώρα δεδομένων για να πειραματιστεί και να βελτιώσει τις δικές της μεθόδους. Η αλληλεπίδραση αυτή ήταν και είναι σημαντική και για τα δύο μέρη. Σήμερα λοιπόν είμαστε σε θέση να μετράμε μία αναρίθμητη πια σειρά ψηφιακών μηχανών και αισθητήρων από διαφορετικά ερευνητικά πεδία που παράγουν δεδομένα.
Η βιοτεχνολογία είναι ένας από τους κλάδους που τροφοδότησε και εξακολουθεί να τροφοδοτεί την επιστήμη των μεγάλων δεδομένων με σημαντικό υλικό. Τεχνολογίες όπως η ψηφιακή μικροσκοπία υψηλή ανάλυση, η φασματομετρία μάζα, η απεικόνιση μαγνητικού συντονισμού (MRI) παράγουν καθημερινά αμέτρητα δεδομένα. Πρόκειται ωστόσο για πρωτογενή δεδομένα που δεν παρέχουν καμία ανάλυση, ερμηνεία ή εξαγωγή γνώσης. Αυτό το κενό προσπάθησε να καλύψει ο νέος τομέας της Βιολογικής Εξόρυξης Δεδομένων ή αλλιώς η «Ανακάλυψη της Γνώσης» στα βιολογικά δεδομένα, που ουσιαστικά δεν συλλέγει απλά δεδομένα, αλλά επιπλέον τα επεξεργάζεται και εξάγει συμπεράσματα από αυτά.
«Πρωταρχικός στόχος της “Βιολογικής Εξόρυξης Δεδομένων” είναι να εμβαθύνει στα γρήγορα αναπτυσσόμενα βιολογικά δεδομένα και να θέσει τη βάση που ενισχύει τις απαντήσεις σε θεμελιώδη ζητήματα των επιστημών της βιολογίας και της ιατρικής». (Kavakiotis I., et al., 2017).
Στόχος της παρούσας μεταπτυχιακής διπλωματικής εργασίας είναι η συγκριτική ανάλυση μιας σειράς αλγορίθμων μηχανικής μάθησης (εποπτευόμενης μάθησης) της προβλεπτικής τους ικανότητας στην εφαρμογή τους στην έρευνα της πάθησης του διαβήτη. Συγκεκριμένα, το «πρόβλημα» εντοπίστηκε στο πώς μπορεί να γίνει πρόβλεψη για τη διάγνωση του διαβήτη κατά τη διάρκεια της εγκυμοσύνης, με τη χρήση των συγκεκριμένων αλγορίθμων, και κατά πόσον αυτοί οι αλγόριθμοι διαφοροποιούνται στα αποτελέσματά τους.
Η παρουσίαση των μεθόδων και των αποτελεσμάτων άλλων μελετών για το ίδιο θέμα κρίθηκε αναγκαία. Για τον σκοπό της μελέτης μας ελήφθησαν δεδομένα από το διαδίκτυο και στη συνέχεια αναλύθηκαν τόσο με τη χρήση του εργαλείου weka, όσο και με τη χρήση της γλώσσας προγραμματισμού R.