Εμφάνιση απλής εγγραφής

Σύγκριση αλγορίθμων εξόρυξης γνώσης από πολύ μεγάλες βάσεις δεδομένων

dc.contributor.advisorΘεοδωρίδης, Ιωάννης
dc.contributor.authorΤσουμπού, Παναγιώτα
dc.date.accessioned2016-11-29T11:15:25Z
dc.date.available2016-11-29T11:15:25Z
dc.date.issued2015-10
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/9213
dc.description.abstractΟ αιώνας που διανύουμε είναι αδιαμφισβήτητα ο αιώνας της πληροφορίας. Η ανάπτυξη του Internet και η χρήση του στην καθημερινότητα μας, δημιούργησε ένα χώρο όπου τεράστιες ποσότητες πληροφορίας προστίθενται καθημερινά. Σύμφωνα με το ερευνητικό τμήμα της ΙΒΜ εκτιμάται ότι μόνο στο μέσο κοινωνικής δικτύωσης Facebook, προστίθενται κάθε μέρα 100 Terabytes πληροφορίας. Επίσης εκτιμάται ότι το 2020 ο όγκος διακίνησης πληροφορίας στα μέσα κοινωνικής δικτύωσης θα ξεπερνά τα 35 Zettabytes. Για να κατανοήσουμε πόσο μεγάλος είναι αυτός ο όγκος πληροφορίας αξίζει να αναφέρουμε ότι 1 Zettabyte είναι ισο με 1021 bytes ή ίσο με 1012 Gigabytes. Αν και αυτός ο όγκος δεδομένων φαντάζει εξωπραγματικός, αξίζει να σημειωθεί ότι αποτελεί ένα πολύ μικρό ποσοστό των συνολικών δεδομένων που θα διακινούνται μέσω του διαδικτύου εφόσον η ιδέα του Internet of Things (ΙοΤ) έχει ήδη αρχίσει να γίνεται πραγματικότητα. Δυστυχώς η ύπαρξη δεδομένων δεν συνεπάγεται και την ύπαρξη γνώσης "We are drowning in data, but starving for knowledge -- anonymous". Έτσι για να μετατραπούμε από κοινωνία πληροφορίας σε κοινωνία γνώσης χρειάζεται να βρούμε γρήγορους και αποδοτικούς τρόπους διαχείρισης και ανάλυσης οι οποίοι θα μπορούν να επεξεργαστούν με ταχύτητα και να εξάγουν αξιόπιστη γνώση από αυτούς τους τεράστιους όγκους δεδομένων. Σήμερα πολλές ερευνητικές ομάδες έχουν στραφεί προς αυτή την κατεύθυνση προσπαθώντας να συνεισφέρουν στον μετασχηματισμό του μεγάλου όγκου πληροφορίας σε γνώση. Ένας από τους πολλά υποσχόμενους τομείς για την εξαγωγή γνώσης από μεγάλους όγκους δεδομένων είναι ο τομέας της εξόρυξης δεδομένων. Κατά την διάρκεια των τελευταίων ετών έχουν προταθεί πολλοί αλγόριθμοι οι οποίοι έχουν ως σκοπό την ανάλυση δεδομένων. Στις περισσότερες περιπτώσεις αυτοί οι αλγόριθμοι είναι πολύπλοκο να υλοποιηθούν και να εφαρμοστούν από έναν "απλό" χρήστη, γεγονός που κάνει την ανάλυση δεδομένων μία διαδικασία εξαιρετικά δύσκολη για μη ειδικούς. Για αυτό το λόγο έχουν αναπτυχθεί αρκετά πακέτα λογισμικού τα οποία είναι φιλικά ως προς τον χρήστη και του δίνουν την δυνατότητα να εφαρμόσει αυτούς τους αλγόριθμους στα δεδομένα του. Σε αυτή τη διπλωματική εργασία παρουσιάζουμε τους αλγορίθμους ομαδοποίησης που εμπεριέχονται στο δημοφιλές λογισμικό ανάλυσης δεδομένων WEKA με σκοπό την μελέτη και την σύγκριση τους ως προς την δυνατότητά τους να διαχειρίζονται μεγάλα αρχεία δεδομένων. Επίσης υλοποιήσαμε και ενσωματώσαμε τον δημοφιλή αλγόριθμο CURE(Clustering Using REpresentatives) στο λογισμικό WEKA ο οποίος θεωρείται ένας από τους πιο πολλά υποσχόμενους αλγορίθμους εξόρυξης δεδομένων εφόσον παρέχει την δυνατότητα διαχείρισης μεγάλων όγκων δεδομένων και αναγνώρισης απομακρυσμένων σημείων (outliers). Μέσω μιας σειράς πειραμάτων παρουσιάζουμε για κάθε αλγόριθμο τα όρια επεξεργασίας δεδομένων με την χρήση του λογισμικού WEKA, καθώς και την ταχύτητα εκτέλεσης καθε ενός από αυτούς για διαφορετικές τιμές εγγραφών και χαρακτηριστικών.el
dc.format.extent85el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectΑλγόριθμοιel
dc.subjectΕξόρυξη δεδομένωνel
dc.titleΣύγκριση αλγορίθμων εξόρυξης γνώσης από πολύ μεγάλες βάσεις δεδομένωνel
dc.title.alternativeComparison of data mining algorithms from very large databasesel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENThe century we are living is undoubtedly the century of information. The growth of the Internet and its use in everyday life, created a space where huge amounts of information are daily added. Τhe research department of IBM estimates that only social networking service Facebook, adds each day 100 Terabytes of information. It is also estimated that by 2020 the traffic volume of information in social media will exceed 35 Zettabytes. To understand how big this amount of information is, it is worth mentioning that 1 Zettabyte is equal to 1021 bytes or equal to 1012 Gigabytes. Although this amount of data seems unreal, it is worth noting that it is only a small percentage of the overall data that will be move via the internet because the idea of the Internet of Things (IOT) has already started to become reality. Unfortunately, the fact that data exists does not means knowledge exists too "We are drowning in data, but starving for knowledge - anonymous". So in order to convert the society of information to society of knowledge, we need to find fast and efficient ways of management and analysis, which can fast extract reliable knowledge from huge volumes of data. Nowadays many research teams turn to this direction trying to contribute to the transformation of the large volume data into knowledge. One of the promising areas for extracting knowledge from large volumes of data is Data Mining. The last few years many algorithms have been discovered in order to analyze data. In most cases these algorithms are complex to be implemented by a "simple" user, which makes data analysis an extremely difficult process for non-specialists. For this reason many user friendly software packages have been developed that allow the end user to apply these algorithms to his data. In this thesis we present clustering algorithms which are included in the popular data analysis software WEKA in order to study and compare their ability to manage large data files. Also, we implemented and integrated the algorithm CURE (Clustering Using REpresentatives) into WEKA software, which is considered to be one of the most promising algorithms in data mining due to its ability to manage large volumes of data and identification of outliers. Through a large number of experiments, we present results that show the data processing limits for each algorithm in WEKA, as well as their corresponding execution times as a function of the number of records and attributes respectively.el
dc.contributor.masterΠληροφορικήel
dc.subject.keywordΒάσεις δεδομένων -- Διαχείρισηel


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»