dc.contributor.advisor | Κούτρας, Μάρκος | |
dc.contributor.author | Γεωργίου, Αναστάσιος | |
dc.date.accessioned | 2023-10-06T11:26:46Z | |
dc.date.available | 2023-10-06T11:26:46Z | |
dc.date.issued | 2023-09 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/15772 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/3194 | |
dc.description.abstract | Η ανάλυση ομαδοποίησης είναι μια θεμελιώδης τεχνική στην επιστήμη των δεδομένων, με στόχο την αποκάλυψη εγγενών μοτίβων και σχέσεων μέσα σε πολύπλοκα σύνολα δεδομένων. Η παρούσα Διπλωματική Εργασία διερευνά και συγκρίνει διάφορα κριτήρια αξιολόγησης των τεχνικών ομαδοποίησης σε πολυδιάστατα σύνολα δεδομένων για τον εντοπισμό του βέλτιστου αριθμού συστάδων. Για την αξιολόγηση της σταθερότητας και της αποτελεσματικότητας των κριτηρίων αξιολόγησης χρησιμοποιούνται προσομοιωμένα δεδομένα με γνωστές δομές συστάδων. Διάφορα κριτήρια της βιβλιογραφίας όπως το μέτρο Silhouette και το κριτήριο Calinski Harabaz χρησιμοποιούνται για τη σύγκριση και πρόταση του βέλτιστου αριθμού συστάδων. Τα ευρήματα υπογραμμίζουν την ευαισθησία των κριτηρίων αξιολόγησης στο αρχικό επίπεδο διαχωρισμού των ομάδων μέσω της απόστασης αλλά και την ανάγκη για σωστή κάθε φορά επιλογή μεθόδου συσταδοποίησης τονίζοντας τη σημασία της επιλογής των κατάλληλων τεχνικών με βάση τα χαρακτηριστικά των δεδομένων.
Η παρούσα εργασία συνεισφέρει πολύτιμες γνώσεις για την επιλογή του βέλτιστου αριθμού συστάδων και την ανάδειξη των διαφορετικών χαρακτηριστικών των κριτηρίων, προσφέροντας μέσω παραδειγμάτων κάποια συμπεράσματα για το θέμα αυτό. Προτείνονται μελλοντικές κατευθύνσεις έρευνας για τη διερεύνηση υβριδικών προσεγγίσεων και την αντιμετώπιση προκλήσεων στη ομαδοποίηση δεδομένων μεγάλης κλίμακας. | el |
dc.format.extent | 105 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Σύγκριση των τεχνικών καθορισμού του πλήθους ομάδων σε σύνολα πολυδιάστατων δεδομένων | el |
dc.title.alternative | Comparison of techniques identifying the number of clusters present in multivariate datasets | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης | el |
dc.description.abstractEN | Clustering analysis is a fundamental technique in data science, aiming to uncover inherent patterns and relationships within complex datasets. This MSc Thesis investigates and compares various evaluation criteria of clustering techniques on multidimensional datasets to identify the optimal number of clusters. Simulated data with known cluster structures are exploited to evaluate the stability and effectiveness of each method. Criteria such as the Silhouette measure and Calinski Harabasz are used to compare and suggest the optimal number of clusters. The findings of our numerical experimentation highlight the sensitivity of clustering outcomes to the choice of method, emphasizing the significance of selecting the appropriate techniques based on data characteristics.
The Thesis contributes valuable insights into suggesting and selecting the optimal number of clusters and highlighting the different characteristics of criterias, offering through examples some conclusions on this subject. Finally, we offer guidance for method selection and validation. Future research directions are suggested to explore hybrid approaches, and address challenges in large-scale data clustering. | el |
dc.contributor.master | Εφαρμοσμένη Στατιστική | el |
dc.subject.keyword | Συσταδοποίηση | el |
dc.subject.keyword | Κριτήρια αξιολόγησης αλγορίθμων | el |
dc.date.defense | 2023-09-29 | |