Clustering streaming data in distributed environments based on belief propagation techniques

Arampatzis, Zisis; Αραμπατζής, Ζήσης

dc.contributor.advisor	Χαλκίδη, Μαρία
dc.contributor.author	Arampatzis, Zisis
dc.contributor.author	Αραμπατζής, Ζήσης
dc.date.accessioned	2018-10-22T08:13:39Z
dc.date.available	2018-10-22T08:13:39Z
dc.date.issued	2018-10
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/11470
dc.description.abstract	Σκοπός της παρούσας εργασίας είναι να εξετάσει ένα σύγχρονο πρόβλημα στον τομέα της ανάκτησης πληροφορίας, την ομαδοποίηση ροών δεδομένων σε κατανεμημένο σύστημα. Αυτό το πρόβλημα ανήκει στη κατηγορία προβλημάτων μεγάλων δεδομένων, το οποίο σημαίνει ότι σε αυτά τα δεδομένα δεν μπορούν να εφαρμοστούν παραδοσιακές τεχνικές, λογισμικό ή βάσεις δεδομένων για να πιαστούν, να επεξεργαστούν και να αναλυθούν χωρίς μεγάλη καθυστέρηση και για αυτό τον λόγο πρέπει να χρησιμοποιηθεί παράλληλη επεξεργασία. Επιπλέον όταν αυτά τα δεδομένα είναι με την μορφή ροών δεδομένων υπάρχουν ακόμα περισσότερες προκλήσεις που πρέπει να αντιμετωπιστούν. Από την άλλη μεριά αν λυθούν αυτά τα προβλήματα, η ανάλυση των ροών δεδομένων δίνει πολλά πλεονεκτήματα, όπως το να υπάρχει εικόνα για τα δεδομένα σε πραγματικό χρόνο το οποίο μπορεί να βοηθήσει στην αντιμετώπιση διαφόρων καταστάσεων σε πραγματικό χρόνο. Η συνεχής και κατανεμημένη μορφή που παράγονται τα δεδομένα από πλήθος συσκευών μαζί με το μεγάλο μέγεθός τους και περιορισμούς όπως ο χώρος αποθήκευσης και ο φόρτος δικτύου καθιστούν ένα πολύ δύσκολο πρόβλημα την ομαδοποίηση ροών δεδομένων. Στην παρούσα εργασία, προσπαθούμε να επιλύσουμε το πρόβλημα χρησιμοποιώντας μια προσέγγιση δύο επιπέδων ομαδοποίησης. Στο πρώτο επίπεδο, καθώς τα δεδομένα έρχονται σε πολλούς κατανεμημένους κόμβους, σε κάθε περίοδο του χρόνου, κάθε κόμβος ομαδοποιεί τα δεδομένα και εξάγει την πιο χρήσιμη πληροφορία από τα δεδομένα (exemplars) η οποία θα σταλεί σε έναν κεντρικό κόμβο, για να εκτελέσει με την σειρά του το δεύτερο επίπεδο ομαδοποίησης για να εντοπίσει τα ολικά cluster από όλα τα δεδομένα που κατέφθασαν σε κάθε κόμβο. Οι exemplars που υπολογίστηκαν στον κεντρικό κόμβο, θα σταλούν πίσω σε κάθε κόμβο για να αναθεωρήσουν το βάρος του κάθε exemplar και αυτή η διαδικασία θα συνεχιστεί σε όλη την διάρκεια της ροής δεδομένων.	el
dc.format.extent	57	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.title	Clustering streaming data in distributed environments based on belief propagation techniques	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	This study tries to examine a recent problem of computer science and specifically in data mining field, the online clustering of distributed streaming. This problem belongs to big data and analytics area, which means that we can’t apply the traditional techniques, software or databases to capture, process and analyze this data with low-latency and we need massive parallelism. Moreover, when these big data techniques applied to streaming data more challenges are emerged. On the other hand, the analyzing of streaming data will give a lot of advantages like real time insights of the data that will help to respond in emerging situations. The sequential and distributed fashion of the data produced from a variety of devices combined with the volume of them and constraints such as communication and storage make a major challenge the clustering of streaming data. In our study we address the problem of distributed clustering using two level of clustering approach, in first level, batch of data arrives in many distributed nodes in each time slot and the nodes performs clustering in these data extracting the most significant representatives of the batch (exemplars) which will be forwarded to the central node which in turn performs the second level of clustering in order to identify global patterns in the data arrived from every node The algorithm that we will try to implement uses belief propagation techniques in a distributed environment. The exemplars will feed back to the nodes with the appropriately modified weight which reflect their global significance. We adopt belief propagation techniques in both levels to perform streaming clustering.	el
dc.contributor.master	Ψηφιακά Συστήματα και Υπηρεσίες	el
dc.subject.keyword	Big data	el
dc.subject.keyword	Streaming	el
dc.subject.keyword	Affinity propagation	el
dc.subject.keyword	Clustering	el
dc.subject.keyword	Big Data Analytics	el
dc.date.defense	2018-10-02

Αρχεία σε αυτό το τεκμήριο

Name:: thesis_zisis_arampatzis.pdf
Μέγεθος:: 2.329Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής