Συλλογή δεδομένων από WhatsApp και Telegram

Λήτος, Γιώργης

dc.contributor.advisor	Πατσάκης, Κωνσταντίνος
dc.contributor.author	Λήτος, Γιώργης
dc.date.accessioned	2020-07-23T08:53:23Z
dc.date.available	2020-07-23T08:53:23Z
dc.date.issued	2020-07-01
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/12828
dc.identifier.uri	http://dx.doi.org/10.26267/unipi_dione/251
dc.description.abstract	Οι εφαρμογές αποστολής μηνυμάτων (Text Message Apps) έχουν αλλάξει δραστικά τον τρόπο επικοινωνίας και αλληλεπίδρασης των ανθρώπων. Η σωρεία της πληροφορίας και η ευκολία διακίνησης της ωστόσο προκαλούν σοβαρά ζητήματα σε διάφορους τομείς της καθημερινότητας, καθώς μπορεί το περιεχόμενο των μηνυμάτων να αναφέρεται σε ψευδείς ειδήσεις, παράνομο υλικό κι αλλού είδος παράνομες ή ανήθικες δραστηριότητες. Έτσι, δημιουργείται η ανάγκη έγκαιρης και ακριβής εύρεσης μηνυμάτων, κυρίως σε μαζικά κανάλια επικοινωνίας, που ενδεχομένως να περιέχουν αθέμιτο υλικό. Ωστόσο, η ανάλυση των δεδομένων που διακινούνται μέσω των υπηρεσιών αυτών με σκοπό την αναγνώριση του θέματος συζήτησης των ομάδων χρηστών (groups, channels) είναι μια πρόκληση, καθώς τα μηνύματα αυτά συνήθως έχουν μικρό μέγεθος ή περιλαμβάνουν πολυμέσα. Μια εξίσου σημαντική πρόκληση είναι η πρόληψη και η αποτροπή παραβίασης των όρων χρήσης των υπηρεσιών αυτών από κακόβουλους χρήστες, όπου επίσης απαιτεί την ανάλυση περιεχομένου έναντι των όρων. Σκοπός της παρούσας εργασίας είναι να βοηθήσει, μέσω μιας αρχικής μαζικής ανάλυσης των μηνυμάτων, προς την κατεύθυνση της έγκαιρης εύρεσης μηνυμάτων σε κανάλια επικοινωνίας κοινωνικών δικτύων που ενδεχομένως να αποτελούν ενδείξεις αθέμιτων ενεργειών ή παραβίασης όρων. Συγκεκριμένα, εστιάσαμε στην συλλογή και ανάλυση δεδομένων σε δύο από τις πιο δημοφιλείς υπηρεσίες στον χώρο των Text Message Apps, το WhatsApp και το Telegram. Για να προσεγγίσουμε το πρόβλημα, αρχικά δημιουργήσαμε δύο σύνολα δεδομένων από συνομιλίες μελών διαφόρων ομάδων για την κάθε εφαρμογή ξεχωριστά και στη συνέχεια αναλύσαμε τα δεδομένα αυτά με την χρήση του αλγορίθμου K-means καθώς και με την πιθανοτική κατανομή LDA για να προσδιορίσουμε λέξεις κλειδιά που θα μας βοηθήσουν να εντοπίσουμε τα θέματα συζήτησης κάθε ομάδας. Στη συνέχεια, παρουσιάζουμε για κάθε cluster ή topic αντίστοιχα, τους όρους που φαίνεται να είναι πιο δημοφιλείς, με την βοήθεια των Word clouds. Τέλος, για κάθε μήνυμα στο κανάλι, υπολογίζουμε την πιθανότητα αυτό να ανήκει σε ένα από τα cluster/topic, και για κάθε κανάλι επιστρέφουμε την κατανομή των μηνυμάτων στα αντίστοιχα clusters ή topics.	el
dc.format.extent	154	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.title	Συλλογή δεδομένων από WhatsApp και Telegram	el
dc.title.alternative	Data crawling on WhatsApp and Telegram	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής	el
dc.description.abstractEN	Text Message Apps have dramatically changed the way people communicate and interact. However, the plethora of information and the ease of sharing it hinder serious problems in various areas of our daily life, given that the content of the messages may refer to fake news, illegal material and other types of illegal or immoral activities. This generates the need to timely and accurately identify messages that may contain illegal material, especially in mass media communication channels. Yet, analysis of the data communicated through these services with the objective to identify the topic of discussion in the different groups or channels is challenging, as messages are typically small in size and may contain multimedia. An equally important challenge is to deter and prevent the breach of the terms of use of these services by malicious users, wich also requires content analysis against the terms. The goal of this thesis is to assist in the direction of timely identifying messages on social media channels that may be indicative of unfair actions or breach of terms, through a primary collective analysis of messages. Specifically, we focus on data collection and analysis in two of the most popular services in the field of Text Message Apps, namely WhatsApp and Telegram. We approach the problem in distinct phases. First, we create two unique datasets fro each application, derived from conversations among members of different groups within each application. Second, we analyse this data using the K-means algorithm as well as the LDA probability distribution, aiming to identify keywords that will help us decipher key discussion topics within the groups. Next, for each cluster or topic respectively we depict the terms that seem to be most popular using Word Clouds. Finally, for each message on the channel, we calculate the probability that this message belongs to one of a specific cluster / topic, and for each channel we return the distribution of messages to the respective clusters or topics.	el
dc.contributor.master	Πληροφορική	el
dc.subject.keyword	WhatsApp	el
dc.subject.keyword	Telegram	el
dc.subject.keyword	Data crawling	el
dc.subject.keyword	WhatsApp groups	el
dc.subject.keyword	Telegram groups	el
dc.subject.keyword	Telegram channels	el
dc.subject.keyword	Messasing	el
dc.subject.keyword	K-means algorithm	el
dc.subject.keyword	Python	el
dc.subject.keyword	Clustering	el
dc.subject.keyword	TF-IDF	el
dc.subject.keyword	LDA topic modeling	el
dc.date.defense	2020-07-01

Αρχεία σε αυτό το τεκμήριο

Name:: Litos_mppl16028.pdf
Μέγεθος:: 7.901Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Πληροφορικής
Department of Informatics

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές