Ομαδοποίηση μεγάλης κλίμακας δεδομένων στην Πλατφόρμα Spark

Αυδάλας, Στέφανος

dc.contributor.advisor	Πελέκης, Νικόλαος
dc.contributor.author	Αυδάλας, Στέφανος
dc.date.accessioned	2018-09-17T09:19:49Z
dc.date.available	2018-09-17T09:19:49Z
dc.date.issued	2018-06
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/11390
dc.description.abstract	Η σύγχρονη εποχή την οποία διανύουμε χαρακτηρίζεται ως εποχή των ¨Μεγάλων Δεδομένων¨ εξαιτίας της αύξησης των δεδομένων που παράγονται καθημερινά. Τα δεδομένα αυτά πλέον αποτελούν τη βασική πηγή εξόρυξης γνώσης. Πρόσφατες εκτιμήσεις αναφέρουν ότι ο όγκος των δεδομένων που παράγονται κάθε δύο μέρες είναι ίσος με το πλήθος των δεδομένων που έχουν δημιουργηθεί από την αρχή της ανθρωπότητας ως το 2003. Για την ανάλυση των δεδομένων αυτών, τα παραδοσιακά εργαλεία ανάλυσης δεδομένων δεν αρκούν για τέτοιου είδους διεργασίες. Έτσι συνεχώς δημιουργούνται νέα εργαλεία για την ανάλυση των δεδομένων μεγάλης κλίμακας. Βασισμένοι σε αυτές τις ανάγκες, η παρούσα εργασία έχει θέμα την Ομαδοποίηση Μεγάλης Κλίμακας Δεδομένων στην Πλατφόρμα Spark. Στο πρώτο κεφάλαιο ο αναγνώστης εισάγεται στην έννοια των Δεδομένων Μεγάλης Κλίμακας. Πιο συγκεκριμένα παρουσιάζονται η εξέλιξη και οι προκλήσεις αυτών, καθώς και οι τρόποι παραγωγής και απόκτησής τους. Στο δεύτερο κεφάλαιο εισάγεται η έννοια της Ομαδοποίησης. Παρουσιάζονται αναλυτικά τα μέτρα απόστασης και ομοιότητας για κάθε μορφής δεδομένα, όπως και αυτά που χρησιμοποιούμε για την περίπτωση των συστάδων. Στη συνέχεια αναφέρονται οι κατηγορίες αλγορίθμων ομαδοποίησης, όπως και οι κατηγορίες που εφαρμόζονται για την ομαδοποίηση δεδομένων μεγάλης κλίμακας. Στο επόμενο κεφάλαιο παρουσιάζεται η πλατφόρμα Spark, η οποία χρησιμοποιείται ευρέως για ανάλυση δεδομένων μεγάλης κλίμακας. Ειδικότερα αναφέρονται αναλυτικά οι συνιστώσες της πλατφόρμας καθώς και οι διάφορες βιβλιοθήκες της, μεταξύ των οποίων και οι MLlib και PySpark, οι οποίες χρησιμοποιούνται για την ανάλυση που γίνεται στην παρούσα εργασία. Στο τελευταίο κεφάλαιο περιγράφονται και συγκρίνονται τα αποτελέσματα που έδωσαν οι αλγόριθμοι ομαδοποίησης που βρίσκονται στη βιβλιοθήκη MLlib μέσα από διάφορα μέτρα αξιολόγησης που υπολογίστηκαν για κάθε περίπτωση.	el
dc.format.extent	122	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.title	Ομαδοποίηση μεγάλης κλίμακας δεδομένων στην Πλατφόρμα Spark	el
dc.title.alternative	Large-scale data clustering in Spark	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης	el
dc.description.abstractEN	The modern age we live in is characterized as a ”Big Data” era due to the increase in daily produced data. These data are now the basic source of mining knowledge. Recent estimates indicate that the volume of data produced every two days is equal to the number of data created since the beginning of mankind until 2003. For the analysis of these data, traditional data analysis tools are not sufficient for such processes. New tools for analyzing large-scale data are thus constantly being developed. Based on these needs, the present dissertation deals with the Large Data Clustering on the Spark Platform. In the first chapter the reader is introduced into the concept of Large-Scale Data. More specifically, we present their development and challenges, as well as the ways that they can be produced and acquired. The second chapter introduces the concept of Clustering. We present the distance and similarity measures for each type of data, as well as the measures used for clusters. The categories of clustering algorithms are listed below, as well as the categories used for clustering large scale data. In the next chapter we present the Spark platform, which is widely used for large-scale data analysis. More specifically, the components of the platform as well as its various libraries are presented, including MLlib and PySpark, which are used for the analysis in this dissertation. The last chapter describes and compares the results of the clustering algorithms found in the MLlib library through various evaluation measures calculated for each case.	el
dc.contributor.master	Εφαρμοσμένη Στατιστική	el
dc.subject.keyword	Ομαδοποίηση	el
dc.subject.keyword	Big data	el
dc.subject.keyword	Clustering	el
dc.subject.keyword	Spark	el
dc.subject.keyword	MLlib	el
dc.subject.keyword	Python	el
dc.subject.keyword	K-means	el
dc.subject.keyword	Bisecting K-means	el
dc.subject.keyword	Gaussian Mixture Model	el
dc.subject.keyword	Power Iteration Clustering	el
dc.subject.keyword	Machine learning	el
dc.date.defense	2018-06-25

Files in this item

Name:: Avdalas_mes15015.pdf
Size:: 39.08Mb
Format:: PDF
Description:: Μεταπτυχιακή διατριβή

View/Open

This item appears in the following Collection(s)

Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης
Department of Statistics & Insurance Science

Show simple item record

Except where otherwise noted, this item's license is described as
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές