Σύγκριση των τεχνικών καθορισμού του πλήθους ομάδων σε σύνολα πολυδιάστατων δεδομένων
Comparison of techniques identifying the number of clusters present in multivariate datasets
![Thumbnail](/xmlui/bitstream/handle/unipi/15772/Georgiou_20010.pdf.jpg?sequence=6&isAllowed=y)
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Συσταδοποίηση ; Κριτήρια αξιολόγησης αλγορίθμωνΠερίληψη
Η ανάλυση ομαδοποίησης είναι μια θεμελιώδης τεχνική στην επιστήμη των δεδομένων, με στόχο την αποκάλυψη εγγενών μοτίβων και σχέσεων μέσα σε πολύπλοκα σύνολα δεδομένων. Η παρούσα Διπλωματική Εργασία διερευνά και συγκρίνει διάφορα κριτήρια αξιολόγησης των τεχνικών ομαδοποίησης σε πολυδιάστατα σύνολα δεδομένων για τον εντοπισμό του βέλτιστου αριθμού συστάδων. Για την αξιολόγηση της σταθερότητας και της αποτελεσματικότητας των κριτηρίων αξιολόγησης χρησιμοποιούνται προσομοιωμένα δεδομένα με γνωστές δομές συστάδων. Διάφορα κριτήρια της βιβλιογραφίας όπως το μέτρο Silhouette και το κριτήριο Calinski Harabaz χρησιμοποιούνται για τη σύγκριση και πρόταση του βέλτιστου αριθμού συστάδων. Τα ευρήματα υπογραμμίζουν την ευαισθησία των κριτηρίων αξιολόγησης στο αρχικό επίπεδο διαχωρισμού των ομάδων μέσω της απόστασης αλλά και την ανάγκη για σωστή κάθε φορά επιλογή μεθόδου συσταδοποίησης τονίζοντας τη σημασία της επιλογής των κατάλληλων τεχνικών με βάση τα χαρακτηριστικά των δεδομένων.
Η παρούσα εργασία συνεισφέρει πολύτιμες γνώσεις για την επιλογή του βέλτιστου αριθμού συστάδων και την ανάδειξη των διαφορετικών χαρακτηριστικών των κριτηρίων, προσφέροντας μέσω παραδειγμάτων κάποια συμπεράσματα για το θέμα αυτό. Προτείνονται μελλοντικές κατευθύνσεις έρευνας για τη διερεύνηση υβριδικών προσεγγίσεων και την αντιμετώπιση προκλήσεων στη ομαδοποίηση δεδομένων μεγάλης κλίμακας.