Συσταδοποίηση ροών σύνθετων δεδομένων
Clustering complex data streams
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Δεδομένα ; Συσταδοποίηση ; Αλγόριθμοι ; Ανάλυση δεδομένων ; Αλγόριθμος DenStreamΠερίληψη
Η συσταδοποίηση ροών δεδομένων (data stream clustering) αποτελεί μία ερευνητική περιοχή η οποία συνεχώς αναπτύσσεται μέσα από διάφορες πτυχές (Εξόρυξη Μεγάλου Όγκου δεδομένων- Big Data, αλγόριθμοι ομαδοποίησης, αλγόριθμοι ανάλυσης, κλπ). Κοινός τους παρονομαστής είναι το ζητούμενο της επεξεργασίας τεράστιου όγκου δεδομένων σε διάφορους τομείς. Η παρούσα εργασία προσπάθησε να αξιολογήσει τις δυνατότητες που παρέχουν σύγχρονες βιβλιοθήκες (MOA) και εργαλεία (γλώσσα προγραμματισμού R) στην εφαρμογή αλγορίθμων συσταδοποίησης ροών μεγάλου όγκου δεδομένων με αυξημένη πολυπλοκότητα. Με δεδομένα της κυκλοφορίας των ταξί στο Πεκίνο, εξετάστηκε η υλοποίηση συγκεκριμένης αρχιτεκτονικής και εφαρμογής ως σημαντική συνεισφορά της παρούσας εργασίας.
Τα αποτελέσματα εφαρμογής των παραπάνω στο συγκεκριμένο παράδειγμα δεδομένων ανέδειξε την προοπτική που προσφέρει σε ερευνητικό και εμπορικό επίπεδο η αξιοποίηση της
βιβλιοθήκης MOA μέσω ενός προγραμματιστικού περιβάλλοντος όπως αυτό της R. Δοκιμάστηκε και αξιολογήθηκε ο αλγόριθμος συσταδοποίησης βάσει πυκνότητας DenStream
σε σύγκριση με τον αλγόριθμο CluStream. Ο αλγόριθμος DenStream απέδωσε καλύτερα αποτελέσματα σε σύγκριση με τον CluStream με βάση συγκεκριμένες μετρικές αξιολόγησης. Η αρχικοποίηση των παραμέτρων του εκάστοτε αλγορίθμου προέκυψε έπειτα από πραγματοποίηση δοκιμών. Τέλος, η εργασία εξετάζει αν η προτεινόμενη αρχιτεκτονική μπορεί να αποτελέσει σημείο αναφοράς ή υπο-σύνολο ενός συστήματος στατιστικής ανάλυσης δεδομένων, το οποίο σε πραγματικό χρόνο θα μπορεί να επεξεργάζεται ροές δεδομένων, να τις ταξινομεί σε συμπλέγματα/ομαδοποιήσεις (π.χ. γεωγραφικές περιοχές) και να τις αξιολογεί