Εξόρυξη δεδομένων σε ανοιχτά διασυνδεδεμένα δεδομένα

Χαραλαμπόπουλος, Αθανάσιος

dc.contributor.advisor	Πελέκης, Νικόλαος
dc.contributor.author	Χαραλαμπόπουλος, Αθανάσιος
dc.date.accessioned	2016-12-05T10:51:22Z
dc.date.available	2016-12-05T10:51:22Z
dc.date.issued	2015-12
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/9253
dc.description.abstract	Ο σκοπός της παρούσας διπλωματικής είναι διττός. Από τη μια πλευρά, σκοπός μας είναι να εκμεταλλευτούμε τη δυνατότητα των ανοιχτών διασυνδεδεμένων δεδομένων και τις πληροφορίες που αυτά παρέχουν. Από την άλλη η εφαρμογή τεχνικών εξόρυξης δεδομένων σε διασυνδεδεμένα δεδομένα με σκοπό την ανακάλυψη γνώσης η οποία κρύβεται σε αυτά. Η ολοένα και αυξανόμενη χρήση του διαδικτύου, έχει καταστήσει τον Παγκόσμιο Ιστό, τη μεγαλύτερη αποθήκη δεδομένων και πληροφοριών. Η συνεισφορά των ανοιχτών διασυνδεδεμένων δεδομένων είναι η δημοσίευση και διασύνδεση δομημένων πληροφοριών στον Ιστό, έτσι ώστε αυτές να γίνονται κατανοητές από τις υπολογιστικές μηχανές μέσω του Σημασιολογικού Ιστού. Τα δεδομένα αυτά αναπαρίστανται μέσω του σχήματος RDF (Resource Description Framework) και της SPARQL γλώσσας για την δυνατότητα αναζητήσεων σε RDF δεδομένα στον Σημασιολογικό Ιστό. Η ραγδαία εξέλιξη των διασυνδεδεμένων δεδομένων και η χρησιμότητα τους, ώθησε κυβερνήσεις, δημόσιους φορείς, μουσεία, εγκυκλοπαίδειες, βιβλιοθήκες κ.α. να συμμετέχουν στο εγχείρημα αυτό. Παράδειγμα αποτελεί το DBpedia, ένα project για την διασύνδεση και επαναχρησιμοποίηση δομημένης πληροφορίας από την Wikipedia κάτω από τις αρχές των ανοιχτών διασυνδεδεμένων δεδομένων. Μέσω ερωτημάτων SPARQL στην DBpedia, εξάγαμε πληροφορίες για 2000 ταινίες με σκοπό να εφαρμόσουμε τεχνικές εξόρυξης δεδομένων. Η εξόρυξη δεδομένων με τη χρήση αλγορίθμων οι οποίοι βασίζονται στη στατιστική και μηχανική μάθηση, μας δίνουν την δυνατότητα να αναλύσουμε και να επεξεργαστούμε μεγάλες βάσεις δεδομένων με σκοπό να εξάγουμε χρήσιμες πληροφορίες από αυτά. Συγκεκριμένα, εφαρμόσαμε τεχνικές κατηγοριοποίησης με σκοπό την ταξινόμηση μιας ταινίας σε “καλή” ή “κακή”, βασιζόμενοι στα χαρακτηριστικά των ταινιών τα οποία συλλέξαμε. Στη συνέχεια, μελετήσαμε, παραμετροποιήσαμε κατάλληλα και αξιολογήσαμε αλγορίθμους κατηγοριοποίησης.	el
dc.format.extent	93	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.title	Εξόρυξη δεδομένων σε ανοιχτά διασυνδεδεμένα δεδομένα	el
dc.title.alternative	Data Mining in open linked data	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης	el
dc.description.abstractEN	The purpose of the present thesis is twofold. On the one hand, our goal is to take advantage of the potential of the linked open data and of the information that they could provide. On the other hand the application of data mining techniques on linked data with a view to discover the hidden knowledge in them. The ever increasing use of Internet, has without doubt converted the World Wide Web into the largest data and information storage. The contribution of the linked open data is the link and the publication of structured information on the Web, so that they can be understood by the computational engines via the Semantic Web. These data are represented by the RDF schema (Resource Description Framework) and SPARQL language for the searchable data in RDF in the Semantic Web. The rapid development of the linked data and their usefulness, has urged governments, public institutions, museums, encyclopedias, libraries etc. to participate in this endeavor. One example is the DBpedia, a project about linking and reusing structured information through Wikipedia under the principles of the linked open data. Through SPARQL queries on DBpedia, we extracted information about 2000 films in order to apply data mining techniques. Data mining using algorithms which are based on statistical and machine learning enable us to analyze and process large databases in order to extract useful information from them. More specifically, we implemented categorization techniques to classify a film as "good" or "bad" based on the film characteristics that we collected. Then, we studied, customized and appropriately evaluated classification algorithms.	el
dc.contributor.master	Εφαρμοσμένη Στατιστική	el
dc.subject.keyword	Σημασιολογικός Ιστός	el
dc.subject.keyword	Ανοικτά δεδομένα	el
dc.subject.keyword	Εξόρυξη δεδομένων	el
dc.subject.keyword	Ανοιχτά διασυνδεδεμένα δεδομένα	el
dc.subject.keyword	Αλγόριθμοι	el

Αρχεία σε αυτό το τεκμήριο

Name:: Charalampopoulos_Athanasios.pdf
Μέγεθος:: 2.277Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης
Department of Statistics & Insurance Science

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές