Ομαδοποίηση μεγάλης κλίμακας δεδομένων στην Πλατφόρμα Spark
Large-scale data clustering in Spark
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ομαδοποίηση ; Big data ; Clustering ; Spark ; MLlib ; Python ; K-means ; Bisecting K-means ; Gaussian Mixture Model ; Power Iteration Clustering ; Machine learningΠερίληψη
Η σύγχρονη εποχή την οποία διανύουμε χαρακτηρίζεται ως εποχή των ¨Μεγάλων Δεδομένων¨ εξαιτίας
της αύξησης των δεδομένων που παράγονται καθημερινά. Τα δεδομένα αυτά πλέον αποτελούν τη βασική
πηγή εξόρυξης γνώσης. Πρόσφατες εκτιμήσεις αναφέρουν ότι ο όγκος των δεδομένων που παράγονται κάθε δύο
μέρες είναι ίσος με το πλήθος των δεδομένων που έχουν δημιουργηθεί από την αρχή της ανθρωπότητας ως το 2003.
Για την ανάλυση των δεδομένων αυτών, τα παραδοσιακά εργαλεία ανάλυσης δεδομένων δεν αρκούν για τέτοιου
είδους διεργασίες. Έτσι συνεχώς δημιουργούνται νέα εργαλεία για την ανάλυση των δεδομένων μεγάλης κλίμακας.
Βασισμένοι σε αυτές τις ανάγκες, η παρούσα εργασία έχει θέμα την Ομαδοποίηση Μεγάλης Κλίμακας
Δεδομένων στην Πλατφόρμα Spark. Στο πρώτο κεφάλαιο ο αναγνώστης εισάγεται στην έννοια των Δεδομένων
Μεγάλης Κλίμακας. Πιο συγκεκριμένα παρουσιάζονται η εξέλιξη και οι προκλήσεις αυτών, καθώς και οι τρόποι
παραγωγής και απόκτησής τους.
Στο δεύτερο κεφάλαιο εισάγεται η έννοια της Ομαδοποίησης. Παρουσιάζονται αναλυτικά τα μέτρα απόστασης
και ομοιότητας για κάθε μορφής δεδομένα, όπως και αυτά που χρησιμοποιούμε για την περίπτωση των συστάδων.
Στη συνέχεια αναφέρονται οι κατηγορίες αλγορίθμων ομαδοποίησης, όπως και οι κατηγορίες που εφαρμόζονται
για την ομαδοποίηση δεδομένων μεγάλης κλίμακας.
Στο επόμενο κεφάλαιο παρουσιάζεται η πλατφόρμα Spark, η οποία χρησιμοποιείται ευρέως για ανάλυση
δεδομένων μεγάλης κλίμακας. Ειδικότερα αναφέρονται αναλυτικά οι συνιστώσες της πλατφόρμας καθώς και οι
διάφορες βιβλιοθήκες της, μεταξύ των οποίων και οι MLlib και PySpark, οι οποίες χρησιμοποιούνται για την
ανάλυση που γίνεται στην παρούσα εργασία.
Στο τελευταίο κεφάλαιο περιγράφονται και συγκρίνονται τα αποτελέσματα που έδωσαν οι αλγόριθμοι
ομαδοποίησης που βρίσκονται στη βιβλιοθήκη MLlib μέσα από διάφορα μέτρα αξιολόγησης που υπολογίστηκαν
για κάθε περίπτωση.