Συσταδοποίηση ροών σύνθετων δεδομένων

Κοντονής, Βασίλειος Ν.

dc.contributor.advisor	Πελέκης, Νικόλαος
dc.contributor.author	Κοντονής, Βασίλειος Ν.
dc.date.accessioned	2018-01-15T12:30:12Z
dc.date.available	2018-01-15T12:30:12Z
dc.date.issued	2017-01
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/10543
dc.description.abstract	Η συσταδοποίηση ροών δεδομένων (data stream clustering) αποτελεί μία ερευνητική περιοχή η οποία συνεχώς αναπτύσσεται μέσα από διάφορες πτυχές (Εξόρυξη Μεγάλου Όγκου δεδομένων- Big Data, αλγόριθμοι ομαδοποίησης, αλγόριθμοι ανάλυσης, κλπ). Κοινός τους παρονομαστής είναι το ζητούμενο της επεξεργασίας τεράστιου όγκου δεδομένων σε διάφορους τομείς. Η παρούσα εργασία προσπάθησε να αξιολογήσει τις δυνατότητες που παρέχουν σύγχρονες βιβλιοθήκες (MOA) και εργαλεία (γλώσσα προγραμματισμού R) στην εφαρμογή αλγορίθμων συσταδοποίησης ροών μεγάλου όγκου δεδομένων με αυξημένη πολυπλοκότητα. Με δεδομένα της κυκλοφορίας των ταξί στο Πεκίνο, εξετάστηκε η υλοποίηση συγκεκριμένης αρχιτεκτονικής και εφαρμογής ως σημαντική συνεισφορά της παρούσας εργασίας. Τα αποτελέσματα εφαρμογής των παραπάνω στο συγκεκριμένο παράδειγμα δεδομένων ανέδειξε την προοπτική που προσφέρει σε ερευνητικό και εμπορικό επίπεδο η αξιοποίηση της βιβλιοθήκης MOA μέσω ενός προγραμματιστικού περιβάλλοντος όπως αυτό της R. Δοκιμάστηκε και αξιολογήθηκε ο αλγόριθμος συσταδοποίησης βάσει πυκνότητας DenStream σε σύγκριση με τον αλγόριθμο CluStream. Ο αλγόριθμος DenStream απέδωσε καλύτερα αποτελέσματα σε σύγκριση με τον CluStream με βάση συγκεκριμένες μετρικές αξιολόγησης. Η αρχικοποίηση των παραμέτρων του εκάστοτε αλγορίθμου προέκυψε έπειτα από πραγματοποίηση δοκιμών. Τέλος, η εργασία εξετάζει αν η προτεινόμενη αρχιτεκτονική μπορεί να αποτελέσει σημείο αναφοράς ή υπο-σύνολο ενός συστήματος στατιστικής ανάλυσης δεδομένων, το οποίο σε πραγματικό χρόνο θα μπορεί να επεξεργάζεται ροές δεδομένων, να τις ταξινομεί σε συμπλέγματα/ομαδοποιήσεις (π.χ. γεωγραφικές περιοχές) και να τις αξιολογεί	el
dc.format.extent	76	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.title	Συσταδοποίηση ροών σύνθετων δεδομένων	el
dc.title.alternative	Clustering complex data streams	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης	el
dc.description.abstractEN	Streaming data clustering is a continuous growing research area through various aspects such as big data mining, clustering and analysis algorithms and more, where the need for high volume data processing is required. This thesis’s purpose is to evaluate the capabilities provided by modern and widely known libraries (MOA) and tools (R programming language) to apply clustering algorithms on streams of high volume of complex data. Having available a dataset with a big amount of records regarding the trajectories of many taxis in Beijing, the important contribution of this project is the implementation of this particular architecture and application. The result of the above mentioned application using the specific dataset that is available has revealed the prospect that is provided to the research and the commercial sector by utilizing the MOA library through the R programming environment. DenStream, a density based clustering algorithm, has been applied, evaluated and also compared to the CluStream algorithm, which has also been applied and evaluated as part of this thesis. DenStream algorithm has given better results than the CluStream algorithm in terms of clustering quality, based on specific evaluation metrics used. Furthermore, it turns out that the initialization of the parameters of each algorithm is empirical and it is defined by the analyst based on expertise and the domain knowledge. Eventually, in this thesis it is considered if the suggested architecture could be a point of reference or a subset of a statistical analysis system, which could process data streams, group them into clusters and evaluate the results in real time.	el
dc.contributor.master	Εφαρμοσμένη Στατιστική	el
dc.subject.keyword	Δεδομένα	el
dc.subject.keyword	Συσταδοποίηση	el
dc.subject.keyword	Αλγόριθμοι	el
dc.subject.keyword	Ανάλυση δεδομένων	el
dc.subject.keyword	Αλγόριθμος DenStream	el

Αρχεία σε αυτό το τεκμήριο

Name:: Kontonis_Vasileios.pdf
Μέγεθος:: 2.172Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης
Department of Statistics & Insurance Science

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές