Συλλογή δεδομένων από WhatsApp και Telegram

Λήτος, Γιώργης

Data crawling on WhatsApp and Telegram

Master Thesis

Συγγραφέας

Λήτος, Γιώργης

Ημερομηνία

2020-07-01

Περίληψη

Οι εφαρμογές αποστολής μηνυμάτων (Text Message Apps) έχουν αλλάξει δραστικά τον τρόπο επικοινωνίας και αλληλεπίδρασης των ανθρώπων. Η σωρεία της πληροφορίας και η ευκολία διακίνησης της ωστόσο προκαλούν σοβαρά ζητήματα σε διάφορους τομείς της καθημερινότητας, καθώς μπορεί το περιεχόμενο των μηνυμάτων να αναφέρεται σε ψευδείς ειδήσεις, παράνομο υλικό κι αλλού είδος παράνομες ή ανήθικες δραστηριότητες. Έτσι, δημιουργείται η ανάγκη έγκαιρης και ακριβής εύρεσης μηνυμάτων, κυρίως σε μαζικά κανάλια επικοινωνίας, που ενδεχομένως να περιέχουν αθέμιτο υλικό. Ωστόσο, η ανάλυση των δεδομένων που διακινούνται μέσω των υπηρεσιών αυτών με σκοπό την αναγνώριση του θέματος συζήτησης των ομάδων χρηστών (groups, channels) είναι μια πρόκληση, καθώς τα μηνύματα αυτά συνήθως έχουν μικρό μέγεθος ή περιλαμβάνουν πολυμέσα. Μια εξίσου σημαντική πρόκληση είναι η πρόληψη και η αποτροπή παραβίασης των όρων χρήσης των υπηρεσιών αυτών από κακόβουλους χρήστες, όπου επίσης απαιτεί την ανάλυση περιεχομένου έναντι των όρων. Σκοπός της παρούσας εργασίας είναι να βοηθήσει, μέσω μιας αρχικής μαζικής ανάλυσης των μηνυμάτων, προς την κατεύθυνση της έγκαιρης εύρεσης μηνυμάτων σε κανάλια επικοινωνίας κοινωνικών δικτύων που ενδεχομένως να αποτελούν ενδείξεις αθέμιτων ενεργειών ή παραβίασης όρων. Συγκεκριμένα, εστιάσαμε στην συλλογή και ανάλυση δεδομένων σε δύο από τις πιο δημοφιλείς υπηρεσίες στον χώρο των Text Message Apps, το WhatsApp και το Telegram. Για να προσεγγίσουμε το πρόβλημα, αρχικά δημιουργήσαμε δύο σύνολα δεδομένων από συνομιλίες μελών διαφόρων ομάδων για την κάθε εφαρμογή ξεχωριστά και στη συνέχεια αναλύσαμε τα δεδομένα αυτά με την χρήση του αλγορίθμου K-means καθώς και με την πιθανοτική κατανομή LDA για να προσδιορίσουμε λέξεις κλειδιά που θα μας βοηθήσουν να εντοπίσουμε τα θέματα συζήτησης κάθε ομάδας. Στη συνέχεια, παρουσιάζουμε για κάθε cluster ή topic αντίστοιχα, τους όρους που φαίνεται να είναι πιο δημοφιλείς, με την βοήθεια των Word clouds. Τέλος, για κάθε μήνυμα στο κανάλι, υπολογίζουμε την πιθανότητα αυτό να ανήκει σε ένα από τα cluster/topic, και για κάθε κανάλι επιστρέφουμε την κατανομή των μηνυμάτων στα αντίστοιχα clusters ή topics.

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Πληροφορική

Τμήμα

Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής

Αριθμός σελίδων

154

Γλώσσα

Ελληνικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/12828
http://dx.doi.org/10.26267/unipi_dione/251

Συλλογή

Τμήμα Πληροφορικής

Εμφάνιση πλήρους εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές