Σύγκριση αλγορίθμων εξόρυξης γνώσης από πολύ μεγάλες βάσεις δεδομένων
Comparison of data mining algorithms from very large databases
Προβολή/ Άνοιγμα
Θεματική επικεφαλίδα
Αλγόριθμοι ; Εξόρυξη δεδομένωνΛέξεις κλειδιά
Βάσεις δεδομένων -- ΔιαχείρισηΠερίληψη
Ο αιώνας που διανύουμε είναι αδιαμφισβήτητα ο αιώνας της πληροφορίας. Η ανάπτυξη του Internet και η χρήση του στην καθημερινότητα μας, δημιούργησε ένα χώρο όπου τεράστιες ποσότητες πληροφορίας προστίθενται καθημερινά. Σύμφωνα με το ερευνητικό τμήμα της ΙΒΜ εκτιμάται ότι μόνο στο μέσο κοινωνικής δικτύωσης Facebook, προστίθενται κάθε μέρα 100 Terabytes πληροφορίας. Επίσης εκτιμάται ότι το 2020 ο όγκος διακίνησης πληροφορίας στα μέσα κοινωνικής δικτύωσης θα ξεπερνά τα 35 Zettabytes. Για να κατανοήσουμε πόσο μεγάλος είναι αυτός ο όγκος πληροφορίας αξίζει να αναφέρουμε ότι 1 Zettabyte είναι ισο με 1021 bytes ή ίσο με 1012 Gigabytes. Αν και αυτός ο όγκος δεδομένων φαντάζει εξωπραγματικός, αξίζει να σημειωθεί ότι αποτελεί ένα πολύ μικρό ποσοστό των συνολικών δεδομένων που θα διακινούνται μέσω του διαδικτύου εφόσον η ιδέα του Internet of Things (ΙοΤ) έχει ήδη αρχίσει να γίνεται πραγματικότητα.
Δυστυχώς η ύπαρξη δεδομένων δεν συνεπάγεται και την ύπαρξη γνώσης "We are drowning in data, but starving for knowledge -- anonymous". Έτσι για να μετατραπούμε από κοινωνία πληροφορίας σε κοινωνία γνώσης χρειάζεται να βρούμε γρήγορους και αποδοτικούς τρόπους διαχείρισης και ανάλυσης οι οποίοι θα μπορούν να επεξεργαστούν με ταχύτητα και να εξάγουν αξιόπιστη γνώση από αυτούς τους τεράστιους όγκους δεδομένων. Σήμερα πολλές ερευνητικές ομάδες έχουν στραφεί προς αυτή την κατεύθυνση προσπαθώντας να συνεισφέρουν στον μετασχηματισμό του μεγάλου όγκου πληροφορίας σε γνώση. Ένας από τους πολλά υποσχόμενους τομείς για την εξαγωγή γνώσης από μεγάλους όγκους δεδομένων είναι ο τομέας της εξόρυξης δεδομένων.
Κατά την διάρκεια των τελευταίων ετών έχουν προταθεί πολλοί αλγόριθμοι οι οποίοι έχουν ως σκοπό την ανάλυση δεδομένων. Στις περισσότερες περιπτώσεις αυτοί οι αλγόριθμοι είναι πολύπλοκο να υλοποιηθούν και να εφαρμοστούν από έναν "απλό" χρήστη, γεγονός που κάνει την ανάλυση δεδομένων μία διαδικασία εξαιρετικά δύσκολη για μη ειδικούς. Για αυτό το λόγο έχουν αναπτυχθεί αρκετά πακέτα λογισμικού τα οποία είναι φιλικά ως προς τον χρήστη και του δίνουν την δυνατότητα να εφαρμόσει αυτούς τους αλγόριθμους στα δεδομένα του.
Σε αυτή τη διπλωματική εργασία παρουσιάζουμε τους αλγορίθμους ομαδοποίησης που εμπεριέχονται στο δημοφιλές λογισμικό ανάλυσης δεδομένων WEKA με σκοπό την μελέτη και την σύγκριση τους ως προς την δυνατότητά τους να διαχειρίζονται μεγάλα αρχεία δεδομένων. Επίσης υλοποιήσαμε και ενσωματώσαμε τον δημοφιλή αλγόριθμο CURE(Clustering Using REpresentatives) στο λογισμικό WEKA ο οποίος θεωρείται ένας από τους πιο πολλά υποσχόμενους αλγορίθμους εξόρυξης δεδομένων εφόσον παρέχει την δυνατότητα διαχείρισης μεγάλων όγκων δεδομένων και αναγνώρισης απομακρυσμένων σημείων (outliers). Μέσω μιας σειράς πειραμάτων παρουσιάζουμε για κάθε αλγόριθμο τα όρια επεξεργασίας δεδομένων με την χρήση του λογισμικού WEKA, καθώς και την ταχύτητα εκτέλεσης καθε ενός από αυτούς για διαφορετικές τιμές εγγραφών και χαρακτηριστικών.