Clustering algorithm recommendation platform for distributed environments
Master Thesis
Συγγραφέας
Karamolegkos, Panagiotis
Καραμολέγκος, Παναγιώτης
Ημερομηνία
2024-09Επιβλέπων
Kyriazis, DimosthenisΚυριαζής, Δημοσθένης
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
EverCluster ; Python ; Spark ; Machine learning ; Platform ; Artificial intelligence ; Docker ; Computing clusters ; Distributed computing ; Synthetic dataΠερίληψη
Η ραγδαία αύξηση των δεδομένων σε διάφορους τομείς έχει καταστήσει αναγκαία την ανάπτυξη προηγμένων εργαλείων για την αποτελεσματική ανάλυση δεδομένων. Η συσταδοποίηση, μια θεμελιώδης τεχνική στη μηχανική μάθηση, διαδραματίζει κρίσιμο ρόλο στην οργάνωση και ερμηνεία μεγάλων συνόλων δεδομένων. Ωστόσο, η επιλογή του πιο κατάλληλου αλγορίθμου συσταδοποίησης για συγκεκριμένα χαρακτηριστικά δεδομένων θέτει σημαντικές προκλήσεις, καθώς απαιτεί τη διαχείριση της υπολογιστικής ταχύτητας και της ακρίβειας, λαμβάνοντας υπόψη τις πολυπλοκότητες των χαρακτηριστικών των δεδομένων και των παραμέτρων του αλγορίθμου. Αυτό το έγγραφο παρουσιάζει το EverCluster, μια ολοκληρωμένη, cloud-centric πλατφόρμα σχεδιασμένη για να απλοποιήσει τη διαδικασία συσταδοποίησης. Το EverCluster αυτοματοποιεί τη σύσταση βέλτιστων αλγορίθμων συσταδοποίησης, αξιοποιώντας μοντέλα μηχανικής μάθησης που προσαρμόζονται στις προτιμήσεις των χρηστών και τα χαρακτηριστικά των συνόλων δεδομένων. Η αρχιτεκτονική του EverCluster περιγράφεται λεπτομερώς, περιλαμβάνοντας τόσο υψηλού όσο και χαμηλού επιπέδου περιγραφές που υποστηρίζονται από διαγράμματα εγκατάστασης και διεργασιών. Τα πειραματικά ευρήματα αναδεικνύουν την αποτελεσματικότητα της πλατφόρμας, αποκαλύπτοντας ποσοστό επιτυχίας 65,5% για προτάσεις βασισμένες στην ταχύτητα και μέσο ποσοστό 81,1% για προτάσεις βασισμένες στην ακρίβεια. Η πλατφόρμα αποδίδει ιδιαίτερα καλά σε σύνολα δεδομένων με λιγότερα χαρακτηριστικά και υψηλότερους αριθμούς επαναλήψεων, καθιστώντας τις προτάσεις ταχύτητας να φτάνουν σε ποσοστά επιτυχίας 83,3%. Αντιμετωπίζοντας τις πολυπλοκότητες που εμπλέκονται στην επιλογή και την ανάπτυξη αλγορίθμων συσταδοποίησης, το EverCluster στοχεύει να παρέχει έναν πολύτιμο πόρο για επιστήμονες δεδομένων και ερευνητές, προσφέροντας την πιο αποτελεσματική και ακριβή ανάλυση δεδομένων σε διάφορες εφαρμογές.