dc.contributor.advisor | Kyriazis, Dimosthenis | |
dc.contributor.advisor | Κυριαζής, Δημοσθένης | |
dc.contributor.author | Karamolegkos, Panagiotis | |
dc.contributor.author | Καραμολέγκος, Παναγιώτης | |
dc.date.accessioned | 2024-10-24T05:20:02Z | |
dc.date.available | 2024-10-24T05:20:02Z | |
dc.date.issued | 2024-09 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/16889 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/4311 | |
dc.description.abstract | Η ραγδαία αύξηση των δεδομένων σε διάφορους τομείς έχει καταστήσει αναγκαία την ανάπτυξη προηγμένων εργαλείων για την αποτελεσματική ανάλυση δεδομένων. Η συσταδοποίηση, μια θεμελιώδης τεχνική στη μηχανική μάθηση, διαδραματίζει κρίσιμο ρόλο στην οργάνωση και ερμηνεία μεγάλων συνόλων δεδομένων. Ωστόσο, η επιλογή του πιο κατάλληλου αλγορίθμου συσταδοποίησης για συγκεκριμένα χαρακτηριστικά δεδομένων θέτει σημαντικές προκλήσεις, καθώς απαιτεί τη διαχείριση της υπολογιστικής ταχύτητας και της ακρίβειας, λαμβάνοντας υπόψη τις πολυπλοκότητες των χαρακτηριστικών των δεδομένων και των παραμέτρων του αλγορίθμου. Αυτό το έγγραφο παρουσιάζει το EverCluster, μια ολοκληρωμένη, cloud-centric πλατφόρμα σχεδιασμένη για να απλοποιήσει τη διαδικασία συσταδοποίησης. Το EverCluster αυτοματοποιεί τη σύσταση βέλτιστων αλγορίθμων συσταδοποίησης, αξιοποιώντας μοντέλα μηχανικής μάθησης που προσαρμόζονται στις προτιμήσεις των χρηστών και τα χαρακτηριστικά των συνόλων δεδομένων. Η αρχιτεκτονική του EverCluster περιγράφεται λεπτομερώς, περιλαμβάνοντας τόσο υψηλού όσο και χαμηλού επιπέδου περιγραφές που υποστηρίζονται από διαγράμματα εγκατάστασης και διεργασιών. Τα πειραματικά ευρήματα αναδεικνύουν την αποτελεσματικότητα της πλατφόρμας, αποκαλύπτοντας ποσοστό επιτυχίας 65,5% για προτάσεις βασισμένες στην ταχύτητα και μέσο ποσοστό 81,1% για προτάσεις βασισμένες στην ακρίβεια. Η πλατφόρμα αποδίδει ιδιαίτερα καλά σε σύνολα δεδομένων με λιγότερα χαρακτηριστικά και υψηλότερους αριθμούς επαναλήψεων, καθιστώντας τις προτάσεις ταχύτητας να φτάνουν σε ποσοστά επιτυχίας 83,3%. Αντιμετωπίζοντας τις πολυπλοκότητες που εμπλέκονται στην επιλογή και την ανάπτυξη αλγορίθμων συσταδοποίησης, το EverCluster στοχεύει να παρέχει έναν πολύτιμο πόρο για επιστήμονες δεδομένων και ερευνητές, προσφέροντας την πιο αποτελεσματική και ακριβή ανάλυση δεδομένων σε διάφορες εφαρμογές. | el |
dc.format.extent | 102 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.title | Clustering algorithm recommendation platform for distributed environments | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | The rapid growth of data in various fields has necessitated the development of advanced tools for effective data analysis. Clustering, a fundamental technique in machine learning, plays a crucial role in organizing and interpreting large datasets. However, selecting the most suitable clustering algorithm for specific data characteristics poses significant challenges, as it requires balancing computational speed and accuracy while considering the intricacies of dataset properties and algorithm parameters. This document presents EverCluster, a comprehensive, cloud-centric platform designed to streamline the clustering process. EverCluster automates the recommendation of optimal clustering algorithms by leveraging machine learning models that adapt to user preferences and dataset features. The architecture of EverCluster is detailed, featuring both high- and low-level descriptions supported by deployment and activity diagrams. Experimental findings highlight the platform's effectiveness, revealing a success rate of 65.5% for speed-based recommendations and an average of 81.1% for accuracy-based recommendations. The platform performs particularly well on datasets with fewer features and higher iteration numbers making the speed-based recommendations to reach success rates of 83.3%. By addressing the complexities involved in clustering algorithm selection and deployment, EverCluster aims to provide a valuable resource for data scientists and researchers, facilitating more efficient and accurate data analysis across diverse applications. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | EverCluster | el |
dc.subject.keyword | Python | el |
dc.subject.keyword | Spark | el |
dc.subject.keyword | Machine learning | el |
dc.subject.keyword | Platform | el |
dc.subject.keyword | Artificial intelligence | el |
dc.subject.keyword | Docker | el |
dc.subject.keyword | Computing clusters | el |
dc.subject.keyword | Distributed computing | el |
dc.subject.keyword | Synthetic data | el |
dc.date.defense | 2024-09-30 | |