Η εξάπλωση των κυριότερων ιών ηπατίτιδας σε παγκόσμια κλίμακα : ανάλυση δεδομένων και συμπεράσματα
The spread of the main hepatitis viruses on a global scale : data analysis and conclusions

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ηπατίτιδα ; Ανάλυση δεδομένων ; Μηχανική μάθηση ; Machine learning ; Cluster analysis ; Hepatitis ; Data analysis ; SVM ; Ridge regression ; PCAΠερίληψη
Η ηπατίτιδα είναι μια ασθένεια που οφείλεται στη φλεγμονή του ήπατος και μπορεί να προκληθεί από διαφορετικούς ιούς, κατανάλωση αλκοόλ, φάρμακα και άλλους παράγοντες. Οι πιο γνωστές ιογενείς μορφές είναι η ηπατίτιδα A, B, C, D και E. Η πρόοδος της ιατρικής επιστήμης έχει συμβάλει σημαντικά στη μείωση του αριθμού των κρουσμάτων της ασθένειας αυτής. Τα περισσότερα κράτη έχουν αναπτύξει ειδικές στρατηγικές με σκοπό τη μείωση της εξάπλωσης της νόσου. Κάθε κράτος όμως έχει τη δική του φιλοσοφία, οικονομία και ανάπτυξη, με αποτέλεσμα ο ιός της ηπατίτιδας να μην εξαπλώνεται ομοιόμορφα στον κόσμο. Πολλές χώρες σημειώνουν μέχρι και σήμερα υψηλό αριθμό κρουσμάτων.
Το μεγαλύτερο πρόβλημα παγκοσμίως προκαλεί η ηπατίτιδα C και στην συνέχεια η ηπατίτιδα B. Για την παρούσα διπλωματική εργασία συλλέχθηκαν δεδομένα από την ιστοσελίδα του Παγκόσμιου Οργανισμού Υγείας, τα οποία σχετίζονται με διάφορα χαρακτηριστικά των ηπατίτιδων B και C στον πληθυσμό αρκετών χωρών. Με βάση τα χαρακτηριστικά αυτά εφαρμόζεται η στατιστική μέθοδος Ανάλυση Κατά Συστάδες, με σκοπό να εντοπιστούν ομοιόμορφες ομάδες χωρών που έχουν παρόμοια αντιμετώπιση του ιού της ηπατίτιδας. Στην συνέχεια εφαρμόζεται η μέθοδος της Ανάλυσης Κύριων Συνιστωσών η οποία απλοποιεί τα δεδομένα που έχουν συλλεχθεί, τα οποία περιέχουν μεγάλο πλήθος χαρακτηριστικών σχετικά με τις προαναφερθείσες ηπατίτιδες. Με τα απλοποιημένα δεδομένα που λαμβάνουμε από την Ανάλυση των Κύριων Συνιστωσών πραγματοποιείται ξανά ομαδοποίηση των χωρών, ώστε να συγκριθούν τα αποτελέσματα και να αξιολογηθεί αν οι ομάδες που δημιουργούνται με τα απλούστερα δεδομένα που περιέχουν λιγότερο «θόρυβο» είναι πιο συμπαγείς.
Έπειτα, ως γνωστών η στατιστική είναι πολύ χρήσιμη όχι μόνο για την ανάλυση δεδομένων αλλά και για την πρόβλεψη τιμών. Για αυτόν το λόγο, στο τέλος εφαρμόζονται δύο προβλεπτικά μοντέλα, τα οποία είναι εξαιρετικά χρήσιμα για τη βελτίωση των στρατηγικών που εφαρμόζει κάθε κράτος. Αρχικά, προσαρμόζεται στα δεδομένα μας ένα μοντέλο Παλινδρόμησης Ridge, με σκοπό την πρόβλεψη του αριθμού θανάτων που προκαλούνται από την νόσο της ηπατίτιδας B σε μια χώρα. Τέλος, εφαρμόζεται η μέθοδος Μηχανής Υποστήριξης Διανυσμάτων (SVM), με στόχο να προσδιοριστεί αν μια χώρα ανήκει στην κατηγορία χωρών που αντιμετωπίζουν δυναμικά την ηπατίτιδα B ή στην κατηγορία χωρών όπου απαιτούνται αρκετές βελτιώσεις.


