Εξόρυξη δεδομένων σε ανοιχτά διασυνδεδεμένα δεδομένα
Data Mining in open linked data
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Σημασιολογικός Ιστός ; Ανοικτά δεδομένα ; Εξόρυξη δεδομένων ; Ανοιχτά διασυνδεδεμένα δεδομένα ; ΑλγόριθμοιΠερίληψη
Ο σκοπός της παρούσας διπλωματικής είναι διττός. Από τη μια πλευρά, σκοπός μας είναι να εκμεταλλευτούμε τη δυνατότητα των ανοιχτών διασυνδεδεμένων δεδομένων και τις πληροφορίες που αυτά παρέχουν. Από την άλλη η εφαρμογή τεχνικών εξόρυξης δεδομένων σε διασυνδεδεμένα δεδομένα με σκοπό την ανακάλυψη γνώσης η οποία κρύβεται σε αυτά.
Η ολοένα και αυξανόμενη χρήση του διαδικτύου, έχει καταστήσει τον Παγκόσμιο Ιστό, τη μεγαλύτερη αποθήκη δεδομένων και πληροφοριών. Η συνεισφορά των ανοιχτών διασυνδεδεμένων δεδομένων είναι η δημοσίευση και διασύνδεση δομημένων πληροφοριών στον Ιστό, έτσι ώστε αυτές να γίνονται κατανοητές από τις υπολογιστικές μηχανές μέσω του Σημασιολογικού Ιστού. Τα δεδομένα αυτά αναπαρίστανται μέσω του σχήματος RDF (Resource Description Framework) και της SPARQL γλώσσας για την δυνατότητα αναζητήσεων σε RDF δεδομένα στον Σημασιολογικό Ιστό.
Η ραγδαία εξέλιξη των διασυνδεδεμένων δεδομένων και η χρησιμότητα τους, ώθησε κυβερνήσεις, δημόσιους φορείς, μουσεία, εγκυκλοπαίδειες, βιβλιοθήκες κ.α. να συμμετέχουν στο εγχείρημα αυτό. Παράδειγμα αποτελεί το DBpedia, ένα project για την διασύνδεση και επαναχρησιμοποίηση δομημένης πληροφορίας από την Wikipedia κάτω από τις αρχές των ανοιχτών διασυνδεδεμένων δεδομένων. Μέσω ερωτημάτων SPARQL στην DBpedia, εξάγαμε πληροφορίες για 2000 ταινίες με σκοπό να εφαρμόσουμε τεχνικές εξόρυξης δεδομένων.
Η εξόρυξη δεδομένων με τη χρήση αλγορίθμων οι οποίοι βασίζονται στη στατιστική και μηχανική μάθηση, μας δίνουν την δυνατότητα να αναλύσουμε και να επεξεργαστούμε μεγάλες βάσεις δεδομένων με σκοπό να εξάγουμε χρήσιμες πληροφορίες από αυτά. Συγκεκριμένα, εφαρμόσαμε τεχνικές κατηγοριοποίησης με σκοπό την ταξινόμηση μιας ταινίας σε “καλή” ή “κακή”, βασιζόμενοι στα χαρακτηριστικά των ταινιών τα οποία συλλέξαμε. Στη συνέχεια, μελετήσαμε, παραμετροποιήσαμε κατάλληλα και αξιολογήσαμε αλγορίθμους κατηγοριοποίησης.