dc.contributor.advisor | Πελέκης, Νικόλαος | |
dc.contributor.author | Κοντονής, Βασίλειος Ν. | |
dc.date.accessioned | 2018-01-15T12:30:12Z | |
dc.date.available | 2018-01-15T12:30:12Z | |
dc.date.issued | 2017-01 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/10543 | |
dc.description.abstract | Η συσταδοποίηση ροών δεδομένων (data stream clustering) αποτελεί μία ερευνητική περιοχή η οποία συνεχώς αναπτύσσεται μέσα από διάφορες πτυχές (Εξόρυξη Μεγάλου Όγκου δεδομένων- Big Data, αλγόριθμοι ομαδοποίησης, αλγόριθμοι ανάλυσης, κλπ). Κοινός τους παρονομαστής είναι το ζητούμενο της επεξεργασίας τεράστιου όγκου δεδομένων σε διάφορους τομείς. Η παρούσα εργασία προσπάθησε να αξιολογήσει τις δυνατότητες που παρέχουν σύγχρονες βιβλιοθήκες (MOA) και εργαλεία (γλώσσα προγραμματισμού R) στην εφαρμογή αλγορίθμων συσταδοποίησης ροών μεγάλου όγκου δεδομένων με αυξημένη πολυπλοκότητα. Με δεδομένα της κυκλοφορίας των ταξί στο Πεκίνο, εξετάστηκε η υλοποίηση συγκεκριμένης αρχιτεκτονικής και εφαρμογής ως σημαντική συνεισφορά της παρούσας εργασίας.
Τα αποτελέσματα εφαρμογής των παραπάνω στο συγκεκριμένο παράδειγμα δεδομένων ανέδειξε την προοπτική που προσφέρει σε ερευνητικό και εμπορικό επίπεδο η αξιοποίηση της
βιβλιοθήκης MOA μέσω ενός προγραμματιστικού περιβάλλοντος όπως αυτό της R. Δοκιμάστηκε και αξιολογήθηκε ο αλγόριθμος συσταδοποίησης βάσει πυκνότητας DenStream
σε σύγκριση με τον αλγόριθμο CluStream. Ο αλγόριθμος DenStream απέδωσε καλύτερα αποτελέσματα σε σύγκριση με τον CluStream με βάση συγκεκριμένες μετρικές αξιολόγησης. Η αρχικοποίηση των παραμέτρων του εκάστοτε αλγορίθμου προέκυψε έπειτα από πραγματοποίηση δοκιμών. Τέλος, η εργασία εξετάζει αν η προτεινόμενη αρχιτεκτονική μπορεί να αποτελέσει σημείο αναφοράς ή υπο-σύνολο ενός συστήματος στατιστικής ανάλυσης δεδομένων, το οποίο σε πραγματικό χρόνο θα μπορεί να επεξεργάζεται ροές δεδομένων, να τις ταξινομεί σε συμπλέγματα/ομαδοποιήσεις (π.χ. γεωγραφικές περιοχές) και να τις αξιολογεί | el |
dc.format.extent | 76 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.title | Συσταδοποίηση ροών σύνθετων δεδομένων | el |
dc.title.alternative | Clustering complex data streams | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης | el |
dc.description.abstractEN | Streaming data clustering is a continuous growing research area through various aspects such as big data mining, clustering and analysis algorithms and more, where the need for high volume data processing is required. This thesis’s purpose is to evaluate the capabilities provided by modern and widely known libraries (MOA) and tools (R programming language) to apply clustering algorithms on streams of high volume of complex data. Having available a dataset with a big amount of records regarding the trajectories of many taxis in Beijing, the important contribution of this project is the implementation of this particular architecture and application.
The result of the above mentioned application using the specific dataset that is available has revealed the prospect that is provided to the research and the commercial sector by utilizing the MOA library through the R programming environment. DenStream, a density based clustering algorithm, has been applied, evaluated and also compared to the CluStream algorithm, which has also been applied and evaluated as part of this thesis. DenStream algorithm has given better results than the CluStream algorithm in terms of clustering quality, based on specific evaluation metrics used. Furthermore, it turns out that the initialization of the parameters of each algorithm is empirical and it is defined by the analyst based on expertise and the domain knowledge. Eventually, in this thesis it is considered if the suggested architecture could be a point of reference or a subset of a statistical analysis system, which could process data streams, group them into clusters and evaluate the results in real time. | el |
dc.contributor.master | Εφαρμοσμένη Στατιστική | el |
dc.subject.keyword | Δεδομένα | el |
dc.subject.keyword | Συσταδοποίηση | el |
dc.subject.keyword | Αλγόριθμοι | el |
dc.subject.keyword | Ανάλυση δεδομένων | el |
dc.subject.keyword | Αλγόριθμος DenStream | el |