Show simple item record

Συλλογή δεδομένων από WhatsApp και Telegram

dc.contributor.advisorΠατσάκης, Κωνσταντίνος
dc.contributor.authorΛήτος, Γιώργης
dc.description.abstractΟι εφαρμογές αποστολής μηνυμάτων (Text Message Apps) έχουν αλλάξει δραστικά τον τρόπο επικοινωνίας και αλληλεπίδρασης των ανθρώπων. Η σωρεία της πληροφορίας και η ευκολία διακίνησης της ωστόσο προκαλούν σοβαρά ζητήματα σε διάφορους τομείς της καθημερινότητας, καθώς μπορεί το περιεχόμενο των μηνυμάτων να αναφέρεται σε ψευδείς ειδήσεις, παράνομο υλικό κι αλλού είδος παράνομες ή ανήθικες δραστηριότητες. Έτσι, δημιουργείται η ανάγκη έγκαιρης και ακριβής εύρεσης μηνυμάτων, κυρίως σε μαζικά κανάλια επικοινωνίας, που ενδεχομένως να περιέχουν αθέμιτο υλικό. Ωστόσο, η ανάλυση των δεδομένων που διακινούνται μέσω των υπηρεσιών αυτών με σκοπό την αναγνώριση του θέματος συζήτησης των ομάδων χρηστών (groups, channels) είναι μια πρόκληση, καθώς τα μηνύματα αυτά συνήθως έχουν μικρό μέγεθος ή περιλαμβάνουν πολυμέσα. Μια εξίσου σημαντική πρόκληση είναι η πρόληψη και η αποτροπή παραβίασης των όρων χρήσης των υπηρεσιών αυτών από κακόβουλους χρήστες, όπου επίσης απαιτεί την ανάλυση περιεχομένου έναντι των όρων. Σκοπός της παρούσας εργασίας είναι να βοηθήσει, μέσω μιας αρχικής μαζικής ανάλυσης των μηνυμάτων, προς την κατεύθυνση της έγκαιρης εύρεσης μηνυμάτων σε κανάλια επικοινωνίας κοινωνικών δικτύων που ενδεχομένως να αποτελούν ενδείξεις αθέμιτων ενεργειών ή παραβίασης όρων. Συγκεκριμένα, εστιάσαμε στην συλλογή και ανάλυση δεδομένων σε δύο από τις πιο δημοφιλείς υπηρεσίες στον χώρο των Text Message Apps, το WhatsApp και το Telegram. Για να προσεγγίσουμε το πρόβλημα, αρχικά δημιουργήσαμε δύο σύνολα δεδομένων από συνομιλίες μελών διαφόρων ομάδων για την κάθε εφαρμογή ξεχωριστά και στη συνέχεια αναλύσαμε τα δεδομένα αυτά με την χρήση του αλγορίθμου K-means καθώς και με την πιθανοτική κατανομή LDA για να προσδιορίσουμε λέξεις κλειδιά που θα μας βοηθήσουν να εντοπίσουμε τα θέματα συζήτησης κάθε ομάδας. Στη συνέχεια, παρουσιάζουμε για κάθε cluster ή topic αντίστοιχα, τους όρους που φαίνεται να είναι πιο δημοφιλείς, με την βοήθεια των Word clouds. Τέλος, για κάθε μήνυμα στο κανάλι, υπολογίζουμε την πιθανότητα αυτό να ανήκει σε ένα από τα cluster/topic, και για κάθε κανάλι επιστρέφουμε την κατανομή των μηνυμάτων στα αντίστοιχα clusters ή topics.el
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.titleΣυλλογή δεδομένων από WhatsApp και Telegramel
dc.title.alternativeData crawling on WhatsApp and Telegramel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENText Message Apps have dramatically changed the way people communicate and interact. However, the plethora of information and the ease of sharing it hinder serious problems in various areas of our daily life, given that the content of the messages may refer to fake news, illegal material and other types of illegal or immoral activities. This generates the need to timely and accurately identify messages that may contain illegal material, especially in mass media communication channels. Yet, analysis of the data communicated through these services with the objective to identify the topic of discussion in the different groups or channels is challenging, as messages are typically small in size and may contain multimedia. An equally important challenge is to deter and prevent the breach of the terms of use of these services by malicious users, wich also requires content analysis against the terms. The goal of this thesis is to assist in the direction of timely identifying messages on social media channels that may be indicative of unfair actions or breach of terms, through a primary collective analysis of messages. Specifically, we focus on data collection and analysis in two of the most popular services in the field of Text Message Apps, namely WhatsApp and Telegram. We approach the problem in distinct phases. First, we create two unique datasets fro each application, derived from conversations among members of different groups within each application. Second, we analyse this data using the K-means algorithm as well as the LDA probability distribution, aiming to identify keywords that will help us decipher key discussion topics within the groups. Next, for each cluster or topic respectively we depict the terms that seem to be most popular using Word Clouds. Finally, for each message on the channel, we calculate the probability that this message belongs to one of a specific cluster / topic, and for each channel we return the distribution of messages to the respective clusters or topics.el
dc.subject.keywordData crawlingel
dc.subject.keywordWhatsApp groupsel
dc.subject.keywordTelegram groupsel
dc.subject.keywordTelegram channelsel
dc.subject.keywordK-means algorithmel
dc.subject.keywordLDA topic modelingel

Files in this item


This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Except where otherwise noted, this item's license is described as
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Contact Us
Send Feedback
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»