dc.contributor.advisor | Πελέκης, Νικόλαος | |
dc.contributor.author | Χαραλαμπόπουλος, Αθανάσιος | |
dc.date.accessioned | 2016-12-05T10:51:22Z | |
dc.date.available | 2016-12-05T10:51:22Z | |
dc.date.issued | 2015-12 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/9253 | |
dc.description.abstract | Ο σκοπός της παρούσας διπλωματικής είναι διττός. Από τη μια πλευρά, σκοπός μας είναι να εκμεταλλευτούμε τη δυνατότητα των ανοιχτών διασυνδεδεμένων δεδομένων και τις πληροφορίες που αυτά παρέχουν. Από την άλλη η εφαρμογή τεχνικών εξόρυξης δεδομένων σε διασυνδεδεμένα δεδομένα με σκοπό την ανακάλυψη γνώσης η οποία κρύβεται σε αυτά.
Η ολοένα και αυξανόμενη χρήση του διαδικτύου, έχει καταστήσει τον Παγκόσμιο Ιστό, τη μεγαλύτερη αποθήκη δεδομένων και πληροφοριών. Η συνεισφορά των ανοιχτών διασυνδεδεμένων δεδομένων είναι η δημοσίευση και διασύνδεση δομημένων πληροφοριών στον Ιστό, έτσι ώστε αυτές να γίνονται κατανοητές από τις υπολογιστικές μηχανές μέσω του Σημασιολογικού Ιστού. Τα δεδομένα αυτά αναπαρίστανται μέσω του σχήματος RDF (Resource Description Framework) και της SPARQL γλώσσας για την δυνατότητα αναζητήσεων σε RDF δεδομένα στον Σημασιολογικό Ιστό.
Η ραγδαία εξέλιξη των διασυνδεδεμένων δεδομένων και η χρησιμότητα τους, ώθησε κυβερνήσεις, δημόσιους φορείς, μουσεία, εγκυκλοπαίδειες, βιβλιοθήκες κ.α. να συμμετέχουν στο εγχείρημα αυτό. Παράδειγμα αποτελεί το DBpedia, ένα project για την διασύνδεση και επαναχρησιμοποίηση δομημένης πληροφορίας από την Wikipedia κάτω από τις αρχές των ανοιχτών διασυνδεδεμένων δεδομένων. Μέσω ερωτημάτων SPARQL στην DBpedia, εξάγαμε πληροφορίες για 2000 ταινίες με σκοπό να εφαρμόσουμε τεχνικές εξόρυξης δεδομένων.
Η εξόρυξη δεδομένων με τη χρήση αλγορίθμων οι οποίοι βασίζονται στη στατιστική και μηχανική μάθηση, μας δίνουν την δυνατότητα να αναλύσουμε και να επεξεργαστούμε μεγάλες βάσεις δεδομένων με σκοπό να εξάγουμε χρήσιμες πληροφορίες από αυτά. Συγκεκριμένα, εφαρμόσαμε τεχνικές κατηγοριοποίησης με σκοπό την ταξινόμηση μιας ταινίας σε “καλή” ή “κακή”, βασιζόμενοι στα χαρακτηριστικά των ταινιών τα οποία συλλέξαμε. Στη συνέχεια, μελετήσαμε, παραμετροποιήσαμε κατάλληλα και αξιολογήσαμε αλγορίθμους κατηγοριοποίησης. | el |
dc.format.extent | 93 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.title | Εξόρυξη δεδομένων σε ανοιχτά διασυνδεδεμένα δεδομένα | el |
dc.title.alternative | Data Mining in open linked data | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης | el |
dc.description.abstractEN | The purpose of the present thesis is twofold. On the one hand, our goal is to take advantage of the potential of the linked open data and of the information that they could provide. On the other hand the application of data mining techniques on linked data with a view to discover the hidden knowledge in them.
The ever increasing use of Internet, has without doubt converted the World Wide Web into the largest data and information storage. The contribution of the linked open data is the link and the publication of structured information on the Web, so that they can be understood by the computational engines via the Semantic Web. These data are represented by the RDF schema (Resource Description Framework) and SPARQL language for the searchable data in RDF in the Semantic Web.
The rapid development of the linked data and their usefulness, has urged governments, public institutions, museums, encyclopedias, libraries etc. to participate in this endeavor. One example is the DBpedia, a project about linking and reusing structured information through Wikipedia under the principles of the linked open data. Through SPARQL queries on DBpedia, we extracted information about 2000 films in order to apply data mining techniques.
Data mining using algorithms which are based on statistical and machine learning enable us to analyze and process large databases in order to extract useful information from them. More specifically, we implemented categorization techniques to classify a film as "good" or "bad" based on the film characteristics that we collected. Then, we studied, customized and appropriately evaluated classification algorithms. | el |
dc.contributor.master | Εφαρμοσμένη Στατιστική | el |
dc.subject.keyword | Σημασιολογικός Ιστός | el |
dc.subject.keyword | Ανοικτά δεδομένα | el |
dc.subject.keyword | Εξόρυξη δεδομένων | el |
dc.subject.keyword | Ανοιχτά διασυνδεδεμένα δεδομένα | el |
dc.subject.keyword | Αλγόριθμοι | el |