Show simple item record

Real-time monitoring of data streams using machine learning techniques for optimizing decision making

dc.contributor.advisorBersimis, Sotirios
dc.contributor.advisorΜπερσίμης, Σωτήριος
dc.contributor.authorSkarlatos, Kyriakos
dc.contributor.authorΣκαρλάτος, Κυριάκος
dc.date.accessioned2026-03-31T14:14:15Z
dc.date.available2026-03-31T14:14:15Z
dc.date.issued2026-03
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/19100
dc.description.abstractΗ ραγδαία ανάπτυξη των μεγάλων δεδομένων (big data) οφείλεται πρωτίστως στην εντεινόμενη ψηφιοποίηση της πληροφορίας και στη διευρυμένη χρήση συσκευών συλ- λογής δεδομένων. Καθώς οι τεχνολογικές εξελίξεις επιταχύνονται, ο όγκος, η ποικι- λομορφία και η ταχύτητα παραγωγής δεδομένων αυξάνονται, διαμορφώνοντας το πε- δίο της ανάλυσης μεγάλων δεδομένων (big data analytics), το οποίο στοχεύει στην εξαγωγή ουσιαστικής πληροφορίας από εκτεταμένα σύνολα δεδομένων. Ο ολοένα αυ- ξανόμενος όγκος δεδομένων συνεπάγεται σημαντικές ευκαιρίες, αλλά ταυτόχρονα ει- σάγει και ουσιώδεις μεθοδολογικές και υπολογιστικές προκλήσεις. Στο πλαίσιο της Στατιστικής Παρακολούθησης Διεργασιών (Statistical Process Monitoring -- SPM), η ανάλυση δεδομένων υψηλής διαστατικότητας συχνά οδηγεί στο φαινόμενο της «κατά- ρας της διαστατικότητας» (curse of dimensionality), όπου η αραιότητα των δεδομένων (data sparsity) δυσχεραίνει την ανίχνευση ουσιωδών προτύπων και ανωμαλιών. Επιπρο- σθέτως, η παρακολούθηση πολύπλοκων αλληλεξαρτήσεων μεταξύ πολλών μεταβλητών καθιστά ανεπαρκείς τις παραδοσιακές μονομεταβλητές προσεγγίσεις και επιβάλλει την υιοθέτηση προηγμένων μεθόδων. Η Πολυμεταβλητή Στατιστική Παρακολούθηση Διερ- γασιών (Multivariate Statistical Process Monitoring -- MSPM) ανταποκρίνεται σε αυτή την ανάγκη μέσω της χρήσης εργαλείων όπως τα πολυμεταβλητά διαγράμματα ελέγχου και ειδικότερα το διάγραμμα T2 του Hotelling, το οποίο αποτυπώνει τη συλλογική συ- μπεριφορά συσχετισμένων μεταβλητών ποιότητας. Η εφαρμογή τέτοιων διαγραμμάτων σε περιβάλλοντα πραγματικού χρόνου και υψηλής διαστατικότητας συνοδεύεται από ιδιαί- τερες δυσκολίες, οι οποίες απορρέουν από τις αυξημένες υπολογιστικές απαιτήσεις και την ανάγκη ταχείας λήψης αποφάσεων (decision-making) κατά την επεξεργασία εκτετα- μένων ροών δεδομένων (data streams). Μια δυνητική κατεύθυνση αντιμετώπισης των δυσκολιών αυτών είναι ο συνδυασμός των παραδοσιακών τεχνικών MSPM με σύγχρο- νες μεθόδους μηχανικής μάθησης, με στόχο την ενίσχυση της προσαρμοστικότητας και της ανιχνευτικής ικανότητας των συστημάτων παρακολούθησης διεργασιών. Ωστόσο, η ενοποίηση των δύο πλαισίων εγείρει κρίσιμα ζητήματα, όπως η ερμηνευσιμότητα των υπο- δειγμάτων, η επιλογή κατάλληλων χαρακτηριστικών και η συνεκτική ενσωμάτωση των αποτελεσμάτων σε διαδικασίες λήψης αποφάσεων. Στην παρούσα διατριβή προτείνεται μια σύγχρονη και ανθεκτική μέθοδος πολυμεταβλητής παρακολούθησης διεργασιών, η οποία εμπνέεται από τεχνικές δεικτών εγκυρότητας συστάδων (cluster validity indexing techniques). Η απόδοση της προτεινόμενης μεθόδου αξιολογείται και συγκρίνεται τόσο με τα κλασικά πολυμεταβλητά διαγράμματα ελέγχου που βασίζονται στη στατιστική T2 του Hotelling, όσο και με μία σειρά δεικτών που προέρχονται από το πεδίο της ανάλυσης συστάδων, όπως οι δείκτες Dunn, Silhouette, Calinski--Harabasz και Davies--Bouldin. Εκτενείς μελέτες προσομοίωσης καταδεικνύουν ότι η προτεινόμενη προσέγγιση υπερτε- ρεί των υφιστάμενων μεθόδων, ιδίως σε σενάρια ολίσθησης του μέσου (mean drifting) και μεταβολών που σχετίζονται με την πυκνότητα, όταν εξετάζονται ροές δεδομένων με ισχυρά συσχετισμένα χαρακτηριστικά. Τέλος, παρουσιάζονται ενδεικτικές εφαρμογές σε πραγματικά προβλήματα, στις οποίες αξιοποιούνται συνδυαστικά στατιστικές τεχνι- κές και τεχνικές μηχανικής μάθησης, αναδεικνύοντας τη χρηστικότητα της προτεινόμε- νης μεθοδολογίας σε πρακτικά περιβάλλοντα. Από τις μελέτες προσομοίωσης έως τις εφαρμογές σε πραγματικά δεδομένα, η διατριβή επιδιώκει να γεφυρώσει τις έννοιες της στατιστικής και της μηχανικής μάθησης, με τη δεύτερη να αντλεί εργαλεία και μεθο- δολογίες από την πρώτη, διαμορφώνοντας ένα ενοποιημένο πλαίσιο για τη στατιστική παρακολούθηση διεργασιών σε συνθήκες μεγάλων δεδομένων.el
dc.format.extent283el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.titleReal-time monitoring of data streams using machine learning techniques for optimizing decision makingel
dc.title.alternativeΠαρακολούθηση ροών δεδομένων σε πραγματικό χρόνο με τη χρήση τεχνικών μηχανικής μάθησης για τη βελτιστοποίηση της λήψης αποφάσεωνel
dc.typeDoctoral Thesisel
dc.contributor.departmentΣχολή Οικονομικών, Επιχειρηματικών και Διεθνών Σπουδών. Τμήμα Οργάνωσης και Διοίκησης Επιχειρήσεωνel
dc.description.abstractENThe growth of big data is primarily driven by the increasing digitization of information and the widespread use of data-collecting devices. As technological advancements continue, the volume, variety, and velocity of data generation expand, giving rise to big data analytics aimed at extracting valuable insights from vast datasets. The growing volume of data presents both opportunities and significant challenges. In the realm of Statistical Process Monitoring (SPM), the analysis of high-dimensional data often leads to the “curse of dimensionality”, where data sparsity hinders the detection of meaningful patterns and anomalies. Additionally, monitoring complex relationships among multiple variables requires more advanced methods than traditional univariate approaches. Multivariate Statistical Process Monitoring (MSPM) addresses this need by employing tools such as multivariate control charts, notably the Hotelling’s T2 chart, to capture the joint behavior of correlated quality variables. However, implementing these control charts in real-time, high-dimensional settings is particularly difficult due to the computational demands and the need for rapid decision-making when processing large streams of data. A potential solution is to combine traditional MSPM techniques with modern machine learning approaches; even so, this integration poses challenges related to model interpretability, feature selection, and result integration. In this study, a modern and robust method inspired by cluster validity indexing techniques is presented. This method is compared to the traditional multivariate control charts based on the Hotelling T2 statistic, as well as to other metrics from the cluster analysis framework, such as the Dunn, Silhouette, Calinski-Harabasz, and Davies-Bouldin indices. Extensive simulation studies demonstrate that the proposed method outperforms existing approaches, particularly in scenarios such as mean drifting and density-related changes, involving data streams with correlated features. At the conclusion, various real-world application scenarios utilizing statistical and machine learning techniques are presented. Ranging from simulations to practical applications, this dissertation seeks to bridge the concepts of statistics and machine learning, with the latter inheriting tools and methodologies from the former.el
dc.subject.keywordMachine learningel
dc.subject.keywordData streamsel
dc.subject.keywordReal time monitoringel
dc.subject.keywordCluster validity indicesel
dc.subject.keywordArtificial Intelligenceel
dc.subject.keywordStatisticsel
dc.subject.keywordMultivariate statistical process monitoringel
dc.subject.keywordControl chartsel
dc.subject.keywordQuality controlel
dc.subject.keywordClusteringel
dc.subject.keywordMaritimeel
dc.subject.keywordForecastingel
dc.subject.keywordClassificationel
dc.subject.keywordMeteorologyel
dc.subject.keywordBig datael
dc.subject.keywordCurse of dimensionalityel
dc.date.defense2026-03-09


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record


Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Contact Us
Send Feedback
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»