Δείκτες επιλογής του βέλτιστου πλήθους των συστάδων : μια εμπειρική συγκριτική μελέτη
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Clustering ; NbClustΠερίληψη
Η ανάλυση συστάδων είναι μια οικογένεια μεθόδων πολυμεταβλητής στατιστικής ανάλυσης
δεδομένων που στοχεύει στη δημιουργία ομάδων από ένα δοσμένο σύνολο δεδομένων με βάση
μια σειρά από μεταβλητές. Η ταξινόμηση σε συστάδες γίνεται κατά τέτοιο τρόπο ώστε τα
αντικείμενα κάθε συστάδας να έχουν παρόμοια χαρακτηριστικά. Μια επιτυχημένη ανάλυση θα
πρέπει να οδηγεί σε ομάδες με παρατηρήσεις όσο γίνεται πιο όμοιες εντός αυτών ενώ
παρατηρήσεις διαφορετικών ομάδων να διαφέρουν όσο γίνεται περισσότερο. Κύριο πρόβλημα
της ανάλυσης συστάδων είναι ότι σε πολλές περιπτώσεις δεν γνωρίζουμε εξ’ αρχής τον αριθμό
των συστάδων, γι’ αυτό και έχουν προταθεί μεθοδολογίες και δείκτες προς αυτή την
κατεύθυνση.
Στα πλαίσια της παρούσας διπλωματικής εργασίας παρουσιάζονται αρχικά οι κυριότερες
μέθοδοι συσταδοποίησης (ιεραρχικές και μη ιεραρχικές) με έμφαση στον αλγόριθμο (μέθοδο)
k-Means και στην ιεραρχική συσσωρευτική συσταδοποίηση με τη μέθοδο Ward. Στη συνέχεια,
παρουσιάζονται οι κυριότεροι δείκτες εύρεσης του βέλτιστου πλήθους συστάδων που
περιλαμβάνονται στο πακέτο NbClust της γλώσσας R και εξετάζεται εμπειρικά η
αποτελεσματικότητά τους μέσω δύο εφαρμογών σε πραγματικά δεδομένα. Εκτός των
προαναφερθέντων δεικτών, επιδεικνύεται και η χρήση πιο παραδοσιακών μεθόδων όπως η
«μέθοδος τους αγκώνα» (elbow method) καθώς και η χρήση του δενδρογράμματος για την
επιλογή του βέλτιστου πλήθους συστάδων.