Εμφάνιση απλής εγγραφής

Ομαδοποίηση μεγάλης κλίμακας δεδομένων στην Πλατφόρμα Spark

dc.contributor.advisorΠελέκης, Νικόλαος
dc.contributor.authorΑυδάλας, Στέφανος
dc.date.accessioned2018-09-17T09:19:49Z
dc.date.available2018-09-17T09:19:49Z
dc.date.issued2018-06
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/11390
dc.description.abstractΗ σύγχρονη εποχή την οποία διανύουμε χαρακτηρίζεται ως εποχή των ¨Μεγάλων Δεδομένων¨ εξαιτίας της αύξησης των δεδομένων που παράγονται καθημερινά. Τα δεδομένα αυτά πλέον αποτελούν τη βασική πηγή εξόρυξης γνώσης. Πρόσφατες εκτιμήσεις αναφέρουν ότι ο όγκος των δεδομένων που παράγονται κάθε δύο μέρες είναι ίσος με το πλήθος των δεδομένων που έχουν δημιουργηθεί από την αρχή της ανθρωπότητας ως το 2003. Για την ανάλυση των δεδομένων αυτών, τα παραδοσιακά εργαλεία ανάλυσης δεδομένων δεν αρκούν για τέτοιου είδους διεργασίες. Έτσι συνεχώς δημιουργούνται νέα εργαλεία για την ανάλυση των δεδομένων μεγάλης κλίμακας. Βασισμένοι σε αυτές τις ανάγκες, η παρούσα εργασία έχει θέμα την Ομαδοποίηση Μεγάλης Κλίμακας Δεδομένων στην Πλατφόρμα Spark. Στο πρώτο κεφάλαιο ο αναγνώστης εισάγεται στην έννοια των Δεδομένων Μεγάλης Κλίμακας. Πιο συγκεκριμένα παρουσιάζονται η εξέλιξη και οι προκλήσεις αυτών, καθώς και οι τρόποι παραγωγής και απόκτησής τους. Στο δεύτερο κεφάλαιο εισάγεται η έννοια της Ομαδοποίησης. Παρουσιάζονται αναλυτικά τα μέτρα απόστασης και ομοιότητας για κάθε μορφής δεδομένα, όπως και αυτά που χρησιμοποιούμε για την περίπτωση των συστάδων. Στη συνέχεια αναφέρονται οι κατηγορίες αλγορίθμων ομαδοποίησης, όπως και οι κατηγορίες που εφαρμόζονται για την ομαδοποίηση δεδομένων μεγάλης κλίμακας. Στο επόμενο κεφάλαιο παρουσιάζεται η πλατφόρμα Spark, η οποία χρησιμοποιείται ευρέως για ανάλυση δεδομένων μεγάλης κλίμακας. Ειδικότερα αναφέρονται αναλυτικά οι συνιστώσες της πλατφόρμας καθώς και οι διάφορες βιβλιοθήκες της, μεταξύ των οποίων και οι MLlib και PySpark, οι οποίες χρησιμοποιούνται για την ανάλυση που γίνεται στην παρούσα εργασία. Στο τελευταίο κεφάλαιο περιγράφονται και συγκρίνονται τα αποτελέσματα που έδωσαν οι αλγόριθμοι ομαδοποίησης που βρίσκονται στη βιβλιοθήκη MLlib μέσα από διάφορα μέτρα αξιολόγησης που υπολογίστηκαν για κάθε περίπτωση.el
dc.format.extent122el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleΟμαδοποίηση μεγάλης κλίμακας δεδομένων στην Πλατφόρμα Sparkel
dc.title.alternativeLarge-scale data clustering in Sparkel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμηςel
dc.description.abstractENThe modern age we live in is characterized as a ”Big Data” era due to the increase in daily produced data. These data are now the basic source of mining knowledge. Recent estimates indicate that the volume of data produced every two days is equal to the number of data created since the beginning of mankind until 2003. For the analysis of these data, traditional data analysis tools are not sufficient for such processes. New tools for analyzing large-scale data are thus constantly being developed. Based on these needs, the present dissertation deals with the Large Data Clustering on the Spark Platform. In the first chapter the reader is introduced into the concept of Large-Scale Data. More specifically, we present their development and challenges, as well as the ways that they can be produced and acquired. The second chapter introduces the concept of Clustering. We present the distance and similarity measures for each type of data, as well as the measures used for clusters. The categories of clustering algorithms are listed below, as well as the categories used for clustering large scale data. In the next chapter we present the Spark platform, which is widely used for large-scale data analysis. More specifically, the components of the platform as well as its various libraries are presented, including MLlib and PySpark, which are used for the analysis in this dissertation. The last chapter describes and compares the results of the clustering algorithms found in the MLlib library through various evaluation measures calculated for each case.el
dc.contributor.masterΕφαρμοσμένη Στατιστικήel
dc.subject.keywordΟμαδοποίησηel
dc.subject.keywordBig datael
dc.subject.keywordClusteringel
dc.subject.keywordSparkel
dc.subject.keywordMLlibel
dc.subject.keywordPythonel
dc.subject.keywordK-meansel
dc.subject.keywordBisecting K-meansel
dc.subject.keywordGaussian Mixture Modelel
dc.subject.keywordPower Iteration Clusteringel
dc.subject.keywordMachine learningel
dc.date.defense2018-06-25


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»