Σύγκριση προβλεπτικών προσεγγίσεων και αλγορίθμων για το μονοξείδιο του άνθρακα

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Προβλέψεις ; Ποιότητα αέρα ; Single step ; Χρονοσειρές ; Multi stepΠερίληψη
Η παρούσα διπλωματική εργασία εστιάζει στην εφαρμογή αλγόριθμων πρόβλεψης σε δεδομένα ποιότητας αέρα. Συγκεκριμένα, η εργασία χρησιμοποιεί το σύνολο δεδομένων γνωστό ως «UCI Air Quality», διαθέσιμο από το αποθετήριο UCI, και εστιάζει στην προβλεπτική του μονοξείδιου του άνθρακα (CO). Τα δεδομένα ποιότητας αέρα μπορούν να χαρακτηριστούν ως δύσκολα προς πρόβλεψη καθώς συχνά παρουσιάζουν ασταθή διακύμανση και ακραίες τιμές σε ασταθή διαστήματα ενώ παράλληλα το συγκεκριμένο σύνολο δεδομένων παρουσιάζει σημαντικό αριθμό ελλιπών τιμών, πράγμα που το καθιστά δύσκολο ως προς την χρήση του, καθώς είναι αναγκαία η κατάλληλη προ -επεξεργασία ώστε να μπορούν να εφαρμοστούν οι διάφοροι προβλεπτικοί αλγόριθμοι. Για αυτόν τον λόγο, στην εργασία δόθηκε ιδιαίτερη έμφαση στην ανίχνευση και αντιμετώπιση των ελλιπών τιμών, μέσω εφαρμογής και αξιολόγησης διαφορετικών τρόπων αντιμετώπισης του προαναφερόμενου προβλήματος. Πέρα από αυτά, η εργασία παρουσιάζει 4 επίπεδα ερωτημάτων - συγκρίσεων σχετικά με τους προβλεπτικούς αλγόριθμους που εφαρμόστηκαν: Την σύγκριση στατιστικών μοντέλων (SARMA – SARIMA) με μοντέλα μηχανικής μάθησης (Random Forest), την σύγκριση προσεγγίσεων “multi-step” και “single-step” για τα προαναφερόμενα μοντέλα, που οδηγούν στην σύγκριση των δημιουργούμενων “βραχυπρόθεσμων” και “μεσοπρόθεσμων” οριζόντων πρόβλεψης, καθώς και την σύγκριση “μονομεταβλητών” και “πολυμεταβλητών” προσεγγίσεων των προαναφερόμενων αλγορίθμων. Ο ορίζοντας πρόβλεψης ορίστηκε ως 1 εβδομάδα, όπου οι προσεγγίσεις “singe-step” εστιάζουν στην πρόβλεψη μίας ώρας για διάρκεια μίας εβδομάδας ενώ οι προσεγγίσεις “multi-step” εστιάζουν στην πρόβλεψη τιμών μιας εβδομάδας.
Ως προς τα αποτελέσματα, αξιολογήθηκαν κυρίως με βάση τις μετρικές Mean Absolute Error (MAE) και Root Mean Square Error (RMSE). Γενικά, επιβεβαιώθηκε ότι οι προσεγγίσεις single – step υπερτερούν σε σχέση με τις multi – step προσεγγίσεις ενώ πιο συγκεκριμένα τα μοντέλα Random Forest παρήγαγαν τις χαμηλότερες μετρικές σφαλμάτων. Το μονοδιάστατο (univariate) μοντέλο Random Forest, με προσέγγιση single – step παρήγαγε τις χαμηλότερες μετρικές σφάλματος, καθώς το MAE βρέθηκε ως 0,34 και το RMSE ως 0,53.


