dc.contributor.advisor | Θεοδωρίδης, Ιωάννης | |
dc.contributor.author | Τσουμπού, Παναγιώτα | |
dc.date.accessioned | 2016-11-29T11:15:25Z | |
dc.date.available | 2016-11-29T11:15:25Z | |
dc.date.issued | 2015-10 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/9213 | |
dc.description.abstract | Ο αιώνας που διανύουμε είναι αδιαμφισβήτητα ο αιώνας της πληροφορίας. Η ανάπτυξη του Internet και η χρήση του στην καθημερινότητα μας, δημιούργησε ένα χώρο όπου τεράστιες ποσότητες πληροφορίας προστίθενται καθημερινά. Σύμφωνα με το ερευνητικό τμήμα της ΙΒΜ εκτιμάται ότι μόνο στο μέσο κοινωνικής δικτύωσης Facebook, προστίθενται κάθε μέρα 100 Terabytes πληροφορίας. Επίσης εκτιμάται ότι το 2020 ο όγκος διακίνησης πληροφορίας στα μέσα κοινωνικής δικτύωσης θα ξεπερνά τα 35 Zettabytes. Για να κατανοήσουμε πόσο μεγάλος είναι αυτός ο όγκος πληροφορίας αξίζει να αναφέρουμε ότι 1 Zettabyte είναι ισο με 1021 bytes ή ίσο με 1012 Gigabytes. Αν και αυτός ο όγκος δεδομένων φαντάζει εξωπραγματικός, αξίζει να σημειωθεί ότι αποτελεί ένα πολύ μικρό ποσοστό των συνολικών δεδομένων που θα διακινούνται μέσω του διαδικτύου εφόσον η ιδέα του Internet of Things (ΙοΤ) έχει ήδη αρχίσει να γίνεται πραγματικότητα.
Δυστυχώς η ύπαρξη δεδομένων δεν συνεπάγεται και την ύπαρξη γνώσης "We are drowning in data, but starving for knowledge -- anonymous". Έτσι για να μετατραπούμε από κοινωνία πληροφορίας σε κοινωνία γνώσης χρειάζεται να βρούμε γρήγορους και αποδοτικούς τρόπους διαχείρισης και ανάλυσης οι οποίοι θα μπορούν να επεξεργαστούν με ταχύτητα και να εξάγουν αξιόπιστη γνώση από αυτούς τους τεράστιους όγκους δεδομένων. Σήμερα πολλές ερευνητικές ομάδες έχουν στραφεί προς αυτή την κατεύθυνση προσπαθώντας να συνεισφέρουν στον μετασχηματισμό του μεγάλου όγκου πληροφορίας σε γνώση. Ένας από τους πολλά υποσχόμενους τομείς για την εξαγωγή γνώσης από μεγάλους όγκους δεδομένων είναι ο τομέας της εξόρυξης δεδομένων.
Κατά την διάρκεια των τελευταίων ετών έχουν προταθεί πολλοί αλγόριθμοι οι οποίοι έχουν ως σκοπό την ανάλυση δεδομένων. Στις περισσότερες περιπτώσεις αυτοί οι αλγόριθμοι είναι πολύπλοκο να υλοποιηθούν και να εφαρμοστούν από έναν "απλό" χρήστη, γεγονός που κάνει την ανάλυση δεδομένων μία διαδικασία εξαιρετικά δύσκολη για μη ειδικούς. Για αυτό το λόγο έχουν αναπτυχθεί αρκετά πακέτα λογισμικού τα οποία είναι φιλικά ως προς τον χρήστη και του δίνουν την δυνατότητα να εφαρμόσει αυτούς τους αλγόριθμους στα δεδομένα του.
Σε αυτή τη διπλωματική εργασία παρουσιάζουμε τους αλγορίθμους ομαδοποίησης που εμπεριέχονται στο δημοφιλές λογισμικό ανάλυσης δεδομένων WEKA με σκοπό την μελέτη και την σύγκριση τους ως προς την δυνατότητά τους να διαχειρίζονται μεγάλα αρχεία δεδομένων. Επίσης υλοποιήσαμε και ενσωματώσαμε τον δημοφιλή αλγόριθμο CURE(Clustering Using REpresentatives) στο λογισμικό WEKA ο οποίος θεωρείται ένας από τους πιο πολλά υποσχόμενους αλγορίθμους εξόρυξης δεδομένων εφόσον παρέχει την δυνατότητα διαχείρισης μεγάλων όγκων δεδομένων και αναγνώρισης απομακρυσμένων σημείων (outliers). Μέσω μιας σειράς πειραμάτων παρουσιάζουμε για κάθε αλγόριθμο τα όρια επεξεργασίας δεδομένων με την χρήση του λογισμικού WEKA, καθώς και την ταχύτητα εκτέλεσης καθε ενός από αυτούς για διαφορετικές τιμές εγγραφών και χαρακτηριστικών. | el |
dc.format.extent | 85 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Αλγόριθμοι | el |
dc.subject | Εξόρυξη δεδομένων | el |
dc.title | Σύγκριση αλγορίθμων εξόρυξης γνώσης από πολύ μεγάλες βάσεις δεδομένων | el |
dc.title.alternative | Comparison of data mining algorithms from very large databases | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
dc.description.abstractEN | The century we are living is undoubtedly the century of information. The growth of the Internet and its use in everyday life, created a space where huge amounts of information are daily added. Τhe research department of IBM estimates that only social networking service Facebook, adds each day 100 Terabytes of information. It is also estimated that by 2020 the traffic volume of information in social media will exceed 35 Zettabytes. To understand how big this amount of information is, it is worth mentioning that 1 Zettabyte is equal to 1021 bytes or equal to 1012 Gigabytes. Although this amount of data seems unreal, it is worth noting that it is only a small percentage of the overall data that will be move via the internet because the idea of the Internet of Things (IOT) has already started to become reality.
Unfortunately, the fact that data exists does not means knowledge exists too "We are drowning in data, but starving for knowledge - anonymous". So in order to convert the society of information to society of knowledge, we need to find fast and efficient ways of management and analysis, which can fast extract reliable knowledge from huge volumes of data. Nowadays many research teams turn to this direction trying to contribute to the transformation of the large volume data into knowledge. One of the promising areas for extracting knowledge from large volumes of data is Data Mining.
The last few years many algorithms have been discovered in order to analyze data. In most cases these algorithms are complex to be implemented by a "simple" user, which makes data analysis an extremely difficult process for non-specialists. For this reason many user friendly software packages have been developed that allow the end user to apply these algorithms to his data.
In this thesis we present clustering algorithms which are included in the popular data analysis software WEKA in order to study and compare their ability to manage large data files. Also, we implemented and integrated the algorithm CURE (Clustering Using REpresentatives) into WEKA software, which is considered to be one of the most promising algorithms in data mining due to its ability to manage large volumes of data and identification of outliers. Through a large number of experiments, we present results that show the data processing limits for each algorithm in WEKA, as well as their corresponding execution times as a function of the number of records and attributes respectively. | el |
dc.contributor.master | Πληροφορική | el |
dc.subject.keyword | Βάσεις δεδομένων -- Διαχείριση | el |