Show simple item record

Συσταδοποίηση ροών σύνθετων δεδομένων

dc.contributor.advisorΠελέκης, Νικόλαος
dc.contributor.authorΚοντονής, Βασίλειος Ν.
dc.date.accessioned2018-01-15T12:30:12Z
dc.date.available2018-01-15T12:30:12Z
dc.date.issued2017-01
dc.identifier.urihttp://dione.lib.unipi.gr/xmlui/handle/unipi/10543
dc.description.abstractΗ συσταδοποίηση ροών δεδομένων (data stream clustering) αποτελεί μία ερευνητική περιοχή η οποία συνεχώς αναπτύσσεται μέσα από διάφορες πτυχές (Εξόρυξη Μεγάλου Όγκου δεδομένων- Big Data, αλγόριθμοι ομαδοποίησης, αλγόριθμοι ανάλυσης, κλπ). Κοινός τους παρονομαστής είναι το ζητούμενο της επεξεργασίας τεράστιου όγκου δεδομένων σε διάφορους τομείς. Η παρούσα εργασία προσπάθησε να αξιολογήσει τις δυνατότητες που παρέχουν σύγχρονες βιβλιοθήκες (MOA) και εργαλεία (γλώσσα προγραμματισμού R) στην εφαρμογή αλγορίθμων συσταδοποίησης ροών μεγάλου όγκου δεδομένων με αυξημένη πολυπλοκότητα. Με δεδομένα της κυκλοφορίας των ταξί στο Πεκίνο, εξετάστηκε η υλοποίηση συγκεκριμένης αρχιτεκτονικής και εφαρμογής ως σημαντική συνεισφορά της παρούσας εργασίας. Τα αποτελέσματα εφαρμογής των παραπάνω στο συγκεκριμένο παράδειγμα δεδομένων ανέδειξε την προοπτική που προσφέρει σε ερευνητικό και εμπορικό επίπεδο η αξιοποίηση της βιβλιοθήκης MOA μέσω ενός προγραμματιστικού περιβάλλοντος όπως αυτό της R. Δοκιμάστηκε και αξιολογήθηκε ο αλγόριθμος συσταδοποίησης βάσει πυκνότητας DenStream σε σύγκριση με τον αλγόριθμο CluStream. Ο αλγόριθμος DenStream απέδωσε καλύτερα αποτελέσματα σε σύγκριση με τον CluStream με βάση συγκεκριμένες μετρικές αξιολόγησης. Η αρχικοποίηση των παραμέτρων του εκάστοτε αλγορίθμου προέκυψε έπειτα από πραγματοποίηση δοκιμών. Τέλος, η εργασία εξετάζει αν η προτεινόμενη αρχιτεκτονική μπορεί να αποτελέσει σημείο αναφοράς ή υπο-σύνολο ενός συστήματος στατιστικής ανάλυσης δεδομένων, το οποίο σε πραγματικό χρόνο θα μπορεί να επεξεργάζεται ροές δεδομένων, να τις ταξινομεί σε συμπλέγματα/ομαδοποιήσεις (π.χ. γεωγραφικές περιοχές) και να τις αξιολογείel
dc.format.extent76el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleΣυσταδοποίηση ροών σύνθετων δεδομένωνel
dc.title.alternativeClustering complex data streamsel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμηςel
dc.description.abstractENStreaming data clustering is a continuous growing research area through various aspects such as big data mining, clustering and analysis algorithms and more, where the need for high volume data processing is required. This thesis’s purpose is to evaluate the capabilities provided by modern and widely known libraries (MOA) and tools (R programming language) to apply clustering algorithms on streams of high volume of complex data. Having available a dataset with a big amount of records regarding the trajectories of many taxis in Beijing, the important contribution of this project is the implementation of this particular architecture and application. The result of the above mentioned application using the specific dataset that is available has revealed the prospect that is provided to the research and the commercial sector by utilizing the MOA library through the R programming environment. DenStream, a density based clustering algorithm, has been applied, evaluated and also compared to the CluStream algorithm, which has also been applied and evaluated as part of this thesis. DenStream algorithm has given better results than the CluStream algorithm in terms of clustering quality, based on specific evaluation metrics used. Furthermore, it turns out that the initialization of the parameters of each algorithm is empirical and it is defined by the analyst based on expertise and the domain knowledge. Eventually, in this thesis it is considered if the suggested architecture could be a point of reference or a subset of a statistical analysis system, which could process data streams, group them into clusters and evaluate the results in real time.el
dc.contributor.masterΕφαρμοσμένη Στατιστικήel
dc.subject.keywordΔεδομέναel
dc.subject.keywordΣυσταδοποίησηel
dc.subject.keywordΑλγόριθμοιel
dc.subject.keywordΑνάλυση δεδομένωνel
dc.subject.keywordΑλγόριθμος DenStreamel


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Except where otherwise noted, this item's license is described as
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Contact Us
Send Feedback
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»