Συλλογή δεδομένων και εξόρυξη γνώσης από κοινωνικά δίκτυα : εφαρμογή data analysis τεχνικών σε σύνολα δεδομένων από το κοινωνικό δίκτυο Twitter
Data mining and knowledge discovery from social media : implementation data analysis methods on data collection from Twitter
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
K-means ; Ward ; Ανάλυση δεδομένων ; Εξόρυξη γνώσης ; Data mining ; Twitter ; Συσταδοποίηση ; Ιεραρχική ανάλυση ; Κοινωνικά δίκτυα ; Social media ; Data analysis ; Clustering ; Agglomerative clustering ; Non-negative Matrix Factorization (NMF)Περίληψη
Η πτυχιακή αυτή εργασία πραγματοποιήθηκε στο πλαίσιο του προπτυχιακού προγράμματος σπουδών του τμήματος Ψηφιακών Συστημάτων του Πανεπιστημίου Πειραιώς. Καθότι ένα τμήμα με πρόγραμμα σπουδών κυρίως προσανατολισμένο στους κλάδους των Δικτυοκεντρικών Συστημάτων και Υπηρεσιών και των Τηλεπικοινωνιακών Συστημάτων και Δικτύων και με σκοπό την ανάδειξη εξειδικευμένων επιστημόνων ικανών να συμβάλλουν στην ανάπτυξη, υλοποίηση και διαχείριση συστημάτων σύγχρονης ψηφιακής τεχνολογίας, επιλέχθηκε για την ολοκλήρωση του ένα θέμα γύρω από το σχετικά νεοσύστατο κλάδο των μεγάλων δεδομένων, της διαχείρισης αυτών και κυρίως της εξόρυξης γνώσης από τον παγκόσμιο ιστό και ειδικότερα τα κοινωνικά δίκτυα.
Ζούμε σε μια εποχή που οι άνθρωποι αφιερώνουν σημαντικότατο μέγεθος του χρόνου τους στα κοινωνικά δίκτυα, όπου καταναλώνουν αλλά και παράγουν ασύλληπτα, για παλαιότερες εποχές, μεγέθη πληροφορίας. Η διαχείριση όλης αυτής της πληροφορίας έχει πολύπλευρα ωφέλη. Με την κατάλληλη επεξεργασία μπορούμε να εξάγουμε πολύτιμη γνώση και συμπεράσματα σχεδόν για τις περισσότερες εκφάνσεις της ανθρώπινης δραστηριότητας μιας και έχουμε να κάνουμε με πληροφορίες που γεννιούνται από ένα τεράστιο και πολύμορφο πληθυσμό ατόμων σε ένα περιβάλλον που ομοιάζει αρκετά ως προς αυτό της πραγματικής κοινωνίας.
Την λύση σε αυτό το πρόβλημα εξόρυξης των δεδομένων και εξαγωγής γνώσης από αυτά έρχονται να δώσουν οι κλάδοι της πληροφορικής “data mining”, “data analysis”. Στην παρούσα εργασία θα ασχοληθούμε αρχικά με την εξαγωγή δεδομένων από το κοινωνικό δίκτυο twitter και έπειτα με την απαιτούμενη επεξεργασία αυτών ώστε με αυτά να τροφοδοτήσουμε αλγορίθμους machine learning ώστε να μπορέσουμε να έχουμε μια αυτόματη ομαδοποίηση των δεδομένων βάσει του περιεχομένου τους. Τέλος θα ακουμπήσουμε λίγο τον τομέα του “topic detection” ώστε με τα εργαλεία που δίνει να βγάλουμε στην επιφάνεια τις κρυμμένες ενότητες που ενυπάρχουν στις συλλογές δεδομένων μας.