dc.contributor.advisor | Πελέκης, Νικόλαος | |
dc.contributor.author | Αυδάλας, Στέφανος | |
dc.date.accessioned | 2018-09-17T09:19:49Z | |
dc.date.available | 2018-09-17T09:19:49Z | |
dc.date.issued | 2018-06 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/11390 | |
dc.description.abstract | Η σύγχρονη εποχή την οποία διανύουμε χαρακτηρίζεται ως εποχή των ¨Μεγάλων Δεδομένων¨ εξαιτίας
της αύξησης των δεδομένων που παράγονται καθημερινά. Τα δεδομένα αυτά πλέον αποτελούν τη βασική
πηγή εξόρυξης γνώσης. Πρόσφατες εκτιμήσεις αναφέρουν ότι ο όγκος των δεδομένων που παράγονται κάθε δύο
μέρες είναι ίσος με το πλήθος των δεδομένων που έχουν δημιουργηθεί από την αρχή της ανθρωπότητας ως το 2003.
Για την ανάλυση των δεδομένων αυτών, τα παραδοσιακά εργαλεία ανάλυσης δεδομένων δεν αρκούν για τέτοιου
είδους διεργασίες. Έτσι συνεχώς δημιουργούνται νέα εργαλεία για την ανάλυση των δεδομένων μεγάλης κλίμακας.
Βασισμένοι σε αυτές τις ανάγκες, η παρούσα εργασία έχει θέμα την Ομαδοποίηση Μεγάλης Κλίμακας
Δεδομένων στην Πλατφόρμα Spark. Στο πρώτο κεφάλαιο ο αναγνώστης εισάγεται στην έννοια των Δεδομένων
Μεγάλης Κλίμακας. Πιο συγκεκριμένα παρουσιάζονται η εξέλιξη και οι προκλήσεις αυτών, καθώς και οι τρόποι
παραγωγής και απόκτησής τους.
Στο δεύτερο κεφάλαιο εισάγεται η έννοια της Ομαδοποίησης. Παρουσιάζονται αναλυτικά τα μέτρα απόστασης
και ομοιότητας για κάθε μορφής δεδομένα, όπως και αυτά που χρησιμοποιούμε για την περίπτωση των συστάδων.
Στη συνέχεια αναφέρονται οι κατηγορίες αλγορίθμων ομαδοποίησης, όπως και οι κατηγορίες που εφαρμόζονται
για την ομαδοποίηση δεδομένων μεγάλης κλίμακας.
Στο επόμενο κεφάλαιο παρουσιάζεται η πλατφόρμα Spark, η οποία χρησιμοποιείται ευρέως για ανάλυση
δεδομένων μεγάλης κλίμακας. Ειδικότερα αναφέρονται αναλυτικά οι συνιστώσες της πλατφόρμας καθώς και οι
διάφορες βιβλιοθήκες της, μεταξύ των οποίων και οι MLlib και PySpark, οι οποίες χρησιμοποιούνται για την
ανάλυση που γίνεται στην παρούσα εργασία.
Στο τελευταίο κεφάλαιο περιγράφονται και συγκρίνονται τα αποτελέσματα που έδωσαν οι αλγόριθμοι
ομαδοποίησης που βρίσκονται στη βιβλιοθήκη MLlib μέσα από διάφορα μέτρα αξιολόγησης που υπολογίστηκαν
για κάθε περίπτωση. | el |
dc.format.extent | 122 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.title | Ομαδοποίηση μεγάλης κλίμακας δεδομένων στην Πλατφόρμα Spark | el |
dc.title.alternative | Large-scale data clustering in Spark | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης | el |
dc.description.abstractEN | The modern age we live in is characterized as a ”Big Data” era due to the increase in daily produced data. These
data are now the basic source of mining knowledge. Recent estimates indicate that the volume of data produced
every two days is equal to the number of data created since the beginning of mankind until 2003.
For the analysis of these data, traditional data analysis tools are not sufficient for such processes. New tools for
analyzing large-scale data are thus constantly being developed.
Based on these needs, the present dissertation deals with the Large Data Clustering on the Spark Platform. In
the first chapter the reader is introduced into the concept of Large-Scale Data. More specifically, we present their
development and challenges, as well as the ways that they can be produced and acquired.
The second chapter introduces the concept of Clustering. We present the distance and similarity measures for
each type of data, as well as the measures used for clusters. The categories of clustering algorithms are listed
below, as well as the categories used for clustering large scale data.
In the next chapter we present the Spark platform, which is widely used for large-scale data analysis. More
specifically, the components of the platform as well as its various libraries are presented, including MLlib and
PySpark, which are used for the analysis in this dissertation.
The last chapter describes and compares the results of the clustering algorithms found in the MLlib library
through various evaluation measures calculated for each case. | el |
dc.contributor.master | Εφαρμοσμένη Στατιστική | el |
dc.subject.keyword | Ομαδοποίηση | el |
dc.subject.keyword | Big data | el |
dc.subject.keyword | Clustering | el |
dc.subject.keyword | Spark | el |
dc.subject.keyword | MLlib | el |
dc.subject.keyword | Python | el |
dc.subject.keyword | K-means | el |
dc.subject.keyword | Bisecting K-means | el |
dc.subject.keyword | Gaussian Mixture Model | el |
dc.subject.keyword | Power Iteration Clustering | el |
dc.subject.keyword | Machine learning | el |
dc.date.defense | 2018-06-25 | |