Real-time monitoring of data streams using machine learning techniques for optimizing decision making
Παρακολούθηση ροών δεδομένων σε πραγματικό χρόνο με τη χρήση τεχνικών μηχανικής μάθησης για τη βελτιστοποίηση της λήψης αποφάσεων

Doctoral Thesis
Συγγραφέας
Skarlatos, Kyriakos
Σκαρλάτος, Κυριάκος
Ημερομηνία
2026-03Επιβλέπων
Bersimis, SotiriosΜπερσίμης, Σωτήριος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Machine learning ; Data streams ; Real time monitoring ; Cluster validity indices ; Artificial Intelligence ; Statistics ; Multivariate statistical process monitoring ; Control charts ; Quality control ; Clustering ; Maritime ; Forecasting ; Classification ; Meteorology ; Big data ; Curse of dimensionalityΠερίληψη
Η ραγδαία ανάπτυξη των μεγάλων δεδομένων (big data) οφείλεται πρωτίστως στην
εντεινόμενη ψηφιοποίηση της πληροφορίας και στη διευρυμένη χρήση συσκευών συλ-
λογής δεδομένων. Καθώς οι τεχνολογικές εξελίξεις επιταχύνονται, ο όγκος, η ποικι-
λομορφία και η ταχύτητα παραγωγής δεδομένων αυξάνονται, διαμορφώνοντας το πε-
δίο της ανάλυσης μεγάλων δεδομένων (big data analytics), το οποίο στοχεύει στην
εξαγωγή ουσιαστικής πληροφορίας από εκτεταμένα σύνολα δεδομένων. Ο ολοένα αυ-
ξανόμενος όγκος δεδομένων συνεπάγεται σημαντικές ευκαιρίες, αλλά ταυτόχρονα ει-
σάγει και ουσιώδεις μεθοδολογικές και υπολογιστικές προκλήσεις. Στο πλαίσιο της
Στατιστικής Παρακολούθησης Διεργασιών (Statistical Process Monitoring -- SPM), η
ανάλυση δεδομένων υψηλής διαστατικότητας συχνά οδηγεί στο φαινόμενο της «κατά-
ρας της διαστατικότητας» (curse of dimensionality), όπου η αραιότητα των δεδομένων
(data sparsity) δυσχεραίνει την ανίχνευση ουσιωδών προτύπων και ανωμαλιών. Επιπρο-
σθέτως, η παρακολούθηση πολύπλοκων αλληλεξαρτήσεων μεταξύ πολλών μεταβλητών
καθιστά ανεπαρκείς τις παραδοσιακές μονομεταβλητές προσεγγίσεις και επιβάλλει την
υιοθέτηση προηγμένων μεθόδων. Η Πολυμεταβλητή Στατιστική Παρακολούθηση Διερ-
γασιών (Multivariate Statistical Process Monitoring -- MSPM) ανταποκρίνεται σε αυτή
την ανάγκη μέσω της χρήσης εργαλείων όπως τα πολυμεταβλητά διαγράμματα ελέγχου
και ειδικότερα το διάγραμμα T2
του Hotelling, το οποίο αποτυπώνει τη συλλογική συ-
μπεριφορά συσχετισμένων μεταβλητών ποιότητας. Η εφαρμογή τέτοιων διαγραμμάτων σε
περιβάλλοντα πραγματικού χρόνου και υψηλής διαστατικότητας συνοδεύεται από ιδιαί-
τερες δυσκολίες, οι οποίες απορρέουν από τις αυξημένες υπολογιστικές απαιτήσεις και
την ανάγκη ταχείας λήψης αποφάσεων (decision-making) κατά την επεξεργασία εκτετα-
μένων ροών δεδομένων (data streams). Μια δυνητική κατεύθυνση αντιμετώπισης των
δυσκολιών αυτών είναι ο συνδυασμός των παραδοσιακών τεχνικών MSPM με σύγχρο-
νες μεθόδους μηχανικής μάθησης, με στόχο την ενίσχυση της προσαρμοστικότητας και
της ανιχνευτικής ικανότητας των συστημάτων παρακολούθησης διεργασιών. Ωστόσο, η
ενοποίηση των δύο πλαισίων εγείρει κρίσιμα ζητήματα, όπως η ερμηνευσιμότητα των υπο-
δειγμάτων, η επιλογή κατάλληλων χαρακτηριστικών και η συνεκτική ενσωμάτωση των
αποτελεσμάτων σε διαδικασίες λήψης αποφάσεων. Στην παρούσα διατριβή προτείνεται
μια σύγχρονη και ανθεκτική μέθοδος πολυμεταβλητής παρακολούθησης διεργασιών, η
οποία εμπνέεται από τεχνικές δεικτών εγκυρότητας συστάδων (cluster validity indexing
techniques). Η απόδοση της προτεινόμενης μεθόδου αξιολογείται και συγκρίνεται τόσο
με τα κλασικά πολυμεταβλητά διαγράμματα ελέγχου που βασίζονται στη στατιστική T2
του Hotelling, όσο και με μία σειρά δεικτών που προέρχονται από το πεδίο της ανάλυσης
συστάδων, όπως οι δείκτες Dunn, Silhouette, Calinski--Harabasz και Davies--Bouldin.
Εκτενείς μελέτες προσομοίωσης καταδεικνύουν ότι η προτεινόμενη προσέγγιση υπερτε-
ρεί των υφιστάμενων μεθόδων, ιδίως σε σενάρια ολίσθησης του μέσου (mean drifting)
και μεταβολών που σχετίζονται με την πυκνότητα, όταν εξετάζονται ροές δεδομένων
με ισχυρά συσχετισμένα χαρακτηριστικά. Τέλος, παρουσιάζονται ενδεικτικές εφαρμογές
σε πραγματικά προβλήματα, στις οποίες αξιοποιούνται συνδυαστικά στατιστικές τεχνι-
κές και τεχνικές μηχανικής μάθησης, αναδεικνύοντας τη χρηστικότητα της προτεινόμε-
νης μεθοδολογίας σε πρακτικά περιβάλλοντα. Από τις μελέτες προσομοίωσης έως τις
εφαρμογές σε πραγματικά δεδομένα, η διατριβή επιδιώκει να γεφυρώσει τις έννοιες της
στατιστικής και της μηχανικής μάθησης, με τη δεύτερη να αντλεί εργαλεία και μεθο-
δολογίες από την πρώτη, διαμορφώνοντας ένα ενοποιημένο πλαίσιο για τη στατιστική
παρακολούθηση διεργασιών σε συνθήκες μεγάλων δεδομένων.

