Αλγοριθμική άντληση δομικής πληροφορίας από ψηφιακά κοινωνικά δίκτυα και υπολογισμός μέτρων κεντρικότητας
Algorithmic extraction of structural information from social networks and computation of associated centrality measures
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Twitter ; Κοινωνικά δίκτυα ; Γράφος ; Python ; Εξόρυξη γνώσης ; ΑλγόριθμοιΠερίληψη
Η Μεταπτυχιακή μας διατριβή έχει σαν τίτλο: «Αλγοριθμική άντληση δομικής πληροφορίας από
ψηφιακά κοινωνικά δίκτυα και υπολογισμός μέτρων κεντρικότητας.» Με πιο απλά λόγια, στα πλαίσια
της εργασίας αυτής, καταφέραμε να πάρουμε δεδομένα από ένα κοινωνικό δίκτυο (συγκεκριμένα από
το Twitter), και μετά από κάποια επεξεργασία των δεδομένων αυτών, βγάλαμε έναν γράφο. Ο Γράφος
αυτός αναπαριστά ένα μικρό κομμάτι του δικτύου. Για να είμαστε ακριβείς αναπαριστά το δίκτυο που
δημιουργείτε ξεκινώντας από εμάς, μέχρι και τους Followers των Followers μας. Δηλαδή μέχρι και τους
συγγενείς 2ου βαθμού στο δίκτυο. Στα πλαίσια της μεταπτυχιακής διατριβής, η εξόρυξη γνώσης, από
το δίκτυο, έγινε γράφοντας κώδικα σε Python. Και η αναπαράσταση του γράφου έγινε με την βοήθεια
του εργαλείου Gephi. Δώθηκε μεγάλη έμφαση κατά την εξόρυξη, ώστε να μην ξαναπάρουμε κόμβους,
που τους έχουμε ξαναπάρει, γιατί ο σκοπός μας ήταν να δημιουργήσουμε έναν γράφο, όπου ο κάθε
κόμβος να αναπαριστά ένα μοναδικό χρήστη του Twitter. Η μεταπτυχιακή διατριβή αυτή, θα
μπορούσαμε να πούμε πως χωρίζεται σε 3 μέρη. Πρώτο, η εξόρυξη γνώσεις από ένα κοινωνικό
δίκτυο, και η εισαγωγή των αποτελεσμάτων σε ένα αρχείο .txt. Δεύτερο μέρος, η μετατροπή του
αρχείου .txt σε αρχείο μορφής .gml, ώστε να διαβάζεται στο Gephi. Και τρίτο μέρος, η εισαγωγή του
αρχείου .gml στο Gephi, και η μελέτη του γράφου που βγαίνει, με σκοπό να μελετήσουμε, κυρίως τα
μέτρα κεντρικότητας.
Τα μέτρα κεντρικότητας, δηλαδή το πόσο ‘κεντρικός ή σημαντικός είναι ένας κόμβος σε ένα γράφο,
είναι κάτι που απασχολεί πολλούς ανθρώπους, ανα τον κόσμο, διαφορετικών κλάδων. Για
παράδειγμα οι συγκοινωνιολόγοι, μελετάνε τα μέτρα κεντρικότητας, για να βγάλουνε σε ένα οδικό
δίκτυο μιας πόλης, τα πιο κεντρικά σημεία, σημεία που οι πιθανότητες να περάσουν η πλειοψηφία του
πληθυσμού είναι αρκετά υψηλή. Οι αεροπορικές εταιρίες μελετάνε επίσης τα μέτρα κεντρικότητας των
αεροπορικών γραμμών, βλέποντας την μετακίνηση των επιβατών, αλλά και τις αλλαγές στρατηγικής
των άλλων εταιριών. Με αυτό τον τρόπο (με τα μέτρα κεντρικότητας δηλαδή) οι αεροπορικές εταιρίες
καταλαβαίνουν τους πιο ‘εμπορικούς’ αερολιμένες για αυτούς, πληροφορία πολύ σημαντική για το
πως θα δράσει η εταιρία στο άμεσο μέλλον. Με βάση τα μέτρα κεντρικότητας, και όχι μόνο, πολλές
φορές διαλέγουν να συγχωνευθούν πολλές αεροπορικές εταιρίες. Ελπίζοντας πως με λίγους, αλλά
κεντρικούς αερολιμένες, θα μπορούν να καλύψουν, σχεδόν όλο το δίκτυο.
Θα ήταν πάρα πολύ ενδιαφέρον να δούμε το πως θα εξελισσόταν, το δίκτυο μας, συναρτήση του
χρόνου, αλλά αυτό ξεφεύγει από τα στενά όρια της μεταπτυχιακής διατριβής, και μπαίνει στα όρια της
έρευνας. Σε ένα μετέπειτα βήμα, αν βλέπαμε πως θα άλλαζε το δίκτυο μας, στην πάροδο του χρόνου,
ίσως να είχαμε την δυνατότητα να κάνουμε και προβλέψεις. Και σε περίπτωση που φτάναμε σε σημείο
να προβλέπουμε την ανάπτυξη του δικτύου, θα είχαμε ανακαλύψη μια νέα γνώση, η οποία θα
μπορούσε να χρησιμοποιηθεί και σε άλλους κλάδους εκτός της πληροφορικής. Για παράδειγμα στην
ιατρική, να προβλέπει επιδημίες, σε ποιά σημεία και προς τα που τείνει να αναπτυχθεί. Αυτό θα
μπορούσε να γίνει, ίσως, σε συνέχεια της μεταπτυχιακής αυτής διατριβής, σε διδακτορικό επίπεδο.
Γιατί η ανάπτυξη κώδικα για ένα αρκετά μεγάλο κομμάτι του δικτύου του Twitter, αλλά και η μελέτη του
αντίστοιχου γράφου, η παρατήρηση του γράφου, συναρτήση του χρόνου, και η σύγκριση των
αποτελεσμάτων ανα χρονικές περιόδους, είναι μια αρκετά σύνθετη δουλειά, και πάρα πολύ
χρονοβόρα.
Αυτό που θέλαμε όμως να πετύχουμε, και το πετύχαμε σε αυτήν την εργασία, είναι πως η ιδέα μας,
έστω σε αυτό το μικρό δίκτυο, δουλεύει. Μπορέσαμε και ‘τραβήξαμε’ δεδομένα από το κοινωνικό
δίκτυο, και με βάση αυτά φτιάξαμε ένα γράφο. Από τον πολυδιάστατο αυτόν γράφο βγάλαμε
σημαντικά συμπεράσματα, όπως τα κριτήρια με τα οποία, κάποιος αποφασίζει να ‘ακολουθήσει’
κάποιον, στο κοινωνικό δίκτυου του Twitter. Επίσης, βγάλαμε και στατιστικά στοιχεία, όπως τον μέσο
όρο σύνδεσης ανά κόμβο, τις πιθανότητες που έχουμε κάποιος συγγενείς 2ου βαθμού να μας κάνει
Follow κ.τ.λ.