Ανάλυση δεδομένων COVID-19 με Συστήματα Γεωγραφικών Πληροφοριών
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Μεγάλα δεδομένα ; COVID-19 ; Συστήματα Γεωγραφικών ΠληροφοριώνΠερίληψη
Σε αυτή την εργασία θα μελετήσουμε τη γεωγραφική εξάπλωση του κορονοϊού. Ως πηγή δεδομένων για τον κορονοϊό είναι οι περιπτώσεις μολύνσεων και θάνατοι ανά ημέρα. Έχουν χρησιμοποιηθεί δεδομένα που περιέχουν αυτή τη στιγμή περίπου 60000 εγγραφές, οπότε είναι κατάλληλα για εφαρμογή τεχνικών ανάλυσης μεγάλων δεδομένων. Ακόμα μελετήθηκαν χωρικά δεδομένα όπως για παράδειγμα κάποια βασικά γεωγραφικά και οικονομικά δεδομένα ανά χώρα (τύπου πληθυσμός, πυκνότητα, ΑΕΠ κλπ) και δημογραφικά δεδομένα (πληθυσμός, πυκνότητα, ηλικία κλπ) για το 2020.
Επιπλέον, αναλύονται χωρικά δεδομένα διαφορετικού τύπου, όπως για παράδειγμα σχετικά με τον καιρό (π.χ. θερμοκρασία, βροχή). Τα μετεωρολογικά δεδομένα είναι για το 2020. Τα παραπάνω δεδομένα θα συνδυαστούν και θα αποτελέσουν χαρακτηριστικά προς ταξινόμηση. Η μεταβλητή στόχος θα είναι η ημερήσια αύξηση του κορονοϊού. Θα χωρίσουμε την αύξηση σε διακριτές κατηγορίες.
Στη συνέχεια θα εκπαιδεύσουμε διάφορους αλγορίθμους, για παράδειγμα K-nearest-neighbors, SVM (support vector machines), δέντρα αποφάσεων (Decision Tree) και Τυχαίο Δάσος (Random Forest). Θα γίνει 10-fold cross-validation, ώστε να χωρίσουμε τα δεδομένα σε υποσύνολα εκπαίδευσης και δοκιμής. Επίσης, θα δοκιμάσουμε διάφορες παραμέτρους, ώστε να βελτιστοποιήσουμε τα αποτελέσματα του κάθε αλγορίθμου. Με βάση τα δεδομένα δοκιμής θα αξιολογήσουμε τους ταξινομητές με διάφορες μετρικές, όπως η ακρίβεια, η ευαισθησία και η εξειδίκευση για να δούμε ποιος αλγόριθμος δίνει το καλύτερο αποτέλεσμα.
Tα γεωγραφικά δεδομένα για τον κορονοϊό που συγκεντρώθηκαν προηγουμένως θα γίνει απεικόνισή τους σε χάρτη. Επίσης, μπορεί να γίνει απεικόνιση σε χάρτη της συσχέτισης των οικονομικών, δημογραφικών και μετεωρολογικών δεδομένων με την εξάπλωση του ιού. Λαμβάνοντας υπόψη τη φύση των δεδομένων, η ανάλυση και η απεικόνιση θα γίνει ανά χώρα.