Εφαρμογή μοντέλων πρόβλεψης με χρήση του εργαλείου της R για την πρόβλεψη εμφάνισης καρδιακών προβλημάτων σε ασθενείς
A predictive analysis on heart diseases using machine learning techniques with the R tool
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Μηχανική μάθηση ; Καρδιακές παθήσεις ; Αλγόριθμοι ; Εξόρυξη δεδομένων ; Ανάλυση δεδομένων ; Data mining ; Data analysis ; Data exploration ; Heart disease ; Διερεύνηση δεδομένωνΠερίληψη
Σύμφωνα με στατιστικές μελέτες και τον οργανισμό των κέντρων ελέγχου και πρόληψης νοσημάτων CDC (Centers for Disease Control and Prevention), που αποτελεί τον μεγαλύτερο οργανισμό δημόσιας υγείας των Ηνωμένων Πολιτειών της Αμερικής, οι καρδιακές ασθένειες (heart diseases) αποτελούν ένα από τα κυριότερα αίτια θανάτου στην Αμερική αλλά και στον υπόλοιπο κόσμο. Συγκεκριμένα περισσότεροι από εξακόσιες χιλιάδες άνθρωποι χάνουν την ζωή τους λόγω κάποιας μορφής καρδιακής παθήσεως ετησίως, ένα ποσοστό που ανάγεται σε περίπου το ¼ των θανάτων συνολικά.
Ο όρος των καρδιακών ασθενειών μπορεί να αναφέρεται σε διάφορες μορφές παθήσεων με τον κυριότερο αυτών να είναι η στεφανιαία νόσος (Coronary Artery Disease). Η στεφανιαία νόσος είναι η πιο συνηθισμένη καρδιακή ασθένεια που συναντάται σε μεγάλο μέρος των καρδιακά νοσούντων. Συγκεκριμένα το 2017 υπήρξαν περίπου 365 χιλιάδες θάνατοι που οφείλονταν στην συγκεκριμένη πάθηση ενώ περίπου το 7% των ανθρώπων ηλικίας άνω των 20 εμφανίζουν την εν λόγω ασθένεια.
Ο κύριος τρόπος αντιμετώπισης αυτών των παθήσεων είναι η πρόληψη και η πρόγνωση της ώστε να αντιμετωπισθεί προτού κυρίως εμφανιστεί. Σε περίπτωση παθήσεως η κύρια αντιμετώπιση αφορά πάλι σε αλλαγή συνηθειών και τρόπου ζωής.
Όπως είναι λοιπόν εμφανές μια τέτοια πάθηση με μεγάλο βαθμό βαρύτητας είναι άκρως σημαντικό να μπορεί να προβλεφθεί σύμφωνα με συμπτώματα και στοιχεία που μπορεί να σχετίζονται με την εμφάνιση της.
Μιλώντας για πρόγνωση αναφερόμαστε σε πρόβλεψη των πιθανοτήτων εμφάνισης της ασθένειας σύμφωνα και με άλλα δεδομένα. Στην σημερινή λοιπόν πραγματικότητα, όπου τα δεδομένα αποτελούν πλέον τον πυρήνα των διαδικασιών σε όλο το φάσμα της καθημερινότητας, η πιο χρήσιμη και βάσιμη μέθοδος για την πρόβλεψη είναι η εξόρυξη δεδομένων με την εφαρμογή των μεθόδων μηχανικής μάθησης (machine learning). Μέσω της μηχανικής μάθησης έχουμε πρόσβαση σε μια πληθώρα αλγορίθμων που προσδίδουν ακρίβεια και ευελιξία για την ανάλυση των δεδομένων και την πρόβλεψη μέσω αυτών.
Στην παρούσα εργασία θα προσπαθήσουμε μέσω της εξόρυξης και της διερεύνησης των δεδομένων, της οπτικοποίησης αυτών και της εφαρμογής αλγορίθμων μηχανικής μάθησης σε ένα συγκεκριμένο σύνολο(dataset) να κατανοήσουμε την σχετικότητα των μεταβλητών με την παρουσία καρδιακών παθήσεων και να χαρακτηρίσουμε την σχετικότητα της εμφάνισης αυτών με την παρουσία άλλων συμπτωμάτων και την ασφάλεια πρόβλεψης της καρδιακής πάθησης μέσω αυτών.