dc.contributor.advisor | Πατσάκης, Κωνσταντίνος | |
dc.contributor.author | Λήτος, Γιώργης | |
dc.date.accessioned | 2020-07-23T08:53:23Z | |
dc.date.available | 2020-07-23T08:53:23Z | |
dc.date.issued | 2020-07-01 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/12828 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/251 | |
dc.description.abstract | Οι εφαρμογές αποστολής μηνυμάτων (Text Message Apps) έχουν αλλάξει δραστικά τον τρόπο
επικοινωνίας και αλληλεπίδρασης των ανθρώπων. Η σωρεία της πληροφορίας και η ευκολία
διακίνησης της ωστόσο προκαλούν σοβαρά ζητήματα σε διάφορους τομείς της καθημερινότητας,
καθώς μπορεί το περιεχόμενο των μηνυμάτων να αναφέρεται σε ψευδείς ειδήσεις, παράνομο υλικό
κι αλλού είδος παράνομες ή ανήθικες δραστηριότητες. Έτσι, δημιουργείται η ανάγκη έγκαιρης και
ακριβής εύρεσης μηνυμάτων, κυρίως σε μαζικά κανάλια επικοινωνίας, που ενδεχομένως να
περιέχουν αθέμιτο υλικό. Ωστόσο, η ανάλυση των δεδομένων που διακινούνται μέσω των
υπηρεσιών αυτών με σκοπό την αναγνώριση του θέματος συζήτησης των ομάδων χρηστών
(groups, channels) είναι μια πρόκληση, καθώς τα μηνύματα αυτά συνήθως έχουν μικρό μέγεθος ή
περιλαμβάνουν πολυμέσα. Μια εξίσου σημαντική πρόκληση είναι η πρόληψη και η αποτροπή
παραβίασης των όρων χρήσης των υπηρεσιών αυτών από κακόβουλους χρήστες, όπου επίσης
απαιτεί την ανάλυση περιεχομένου έναντι των όρων.
Σκοπός της παρούσας εργασίας είναι να βοηθήσει, μέσω μιας αρχικής μαζικής ανάλυσης
των μηνυμάτων, προς την κατεύθυνση της έγκαιρης εύρεσης μηνυμάτων σε κανάλια επικοινωνίας
κοινωνικών δικτύων που ενδεχομένως να αποτελούν ενδείξεις αθέμιτων ενεργειών ή παραβίασης
όρων. Συγκεκριμένα, εστιάσαμε στην συλλογή και ανάλυση δεδομένων σε δύο από τις πιο
δημοφιλείς υπηρεσίες στον χώρο των Text Message Apps, το WhatsApp και το Telegram. Για να
προσεγγίσουμε το πρόβλημα, αρχικά δημιουργήσαμε δύο σύνολα δεδομένων από συνομιλίες
μελών διαφόρων ομάδων για την κάθε εφαρμογή ξεχωριστά και στη συνέχεια αναλύσαμε τα
δεδομένα αυτά με την χρήση του αλγορίθμου K-means καθώς και με την πιθανοτική κατανομή LDA
για να προσδιορίσουμε λέξεις κλειδιά που θα μας βοηθήσουν να εντοπίσουμε τα θέματα συζήτησης
κάθε ομάδας. Στη συνέχεια, παρουσιάζουμε για κάθε cluster ή topic αντίστοιχα, τους όρους που
φαίνεται να είναι πιο δημοφιλείς, με την βοήθεια των Word clouds. Τέλος, για κάθε μήνυμα στο
κανάλι, υπολογίζουμε την πιθανότητα αυτό να ανήκει σε ένα από τα cluster/topic, και για κάθε
κανάλι επιστρέφουμε την κατανομή των μηνυμάτων στα αντίστοιχα clusters ή topics. | el |
dc.format.extent | 154 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.title | Συλλογή δεδομένων από WhatsApp και Telegram | el |
dc.title.alternative | Data crawling on WhatsApp and Telegram | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
dc.description.abstractEN | Text Message Apps have dramatically changed the way people communicate and interact.
However, the plethora of information and the ease of sharing it hinder serious problems in various
areas of our daily life, given that the content of the messages may refer to fake news, illegal
material and other types of illegal or immoral activities. This generates the need to timely and
accurately identify messages that may contain illegal material, especially in mass media
communication channels. Yet, analysis of the data communicated through these services with the
objective to identify the topic of discussion in the different groups or channels is challenging, as
messages are typically small in size and may contain multimedia. An equally important challenge is
to deter and prevent the breach of the terms of use of these services by malicious users, wich also
requires content analysis against the terms.
The goal of this thesis is to assist in the direction of timely identifying messages on social
media channels that may be indicative of unfair actions or breach of terms, through a primary
collective analysis of messages. Specifically, we focus on data collection and analysis in two of the
most popular services in the field of Text Message Apps, namely WhatsApp and Telegram. We
approach the problem in distinct phases. First, we create two unique datasets fro each application,
derived from conversations among members of different groups within each application. Second,
we analyse this data using the K-means algorithm as well as the LDA probability distribution, aiming
to identify keywords that will help us decipher key discussion topics within the groups. Next, for
each cluster or topic respectively we depict the terms that seem to be most popular using Word
Clouds. Finally, for each message on the channel, we calculate the probability that this message belongs to one of a specific cluster / topic, and for each channel we return the distribution of
messages to the respective clusters or topics. | el |
dc.contributor.master | Πληροφορική | el |
dc.subject.keyword | WhatsApp | el |
dc.subject.keyword | Telegram | el |
dc.subject.keyword | Data crawling | el |
dc.subject.keyword | WhatsApp groups | el |
dc.subject.keyword | Telegram groups | el |
dc.subject.keyword | Telegram channels | el |
dc.subject.keyword | Messasing | el |
dc.subject.keyword | K-means algorithm | el |
dc.subject.keyword | Python | el |
dc.subject.keyword | Clustering | el |
dc.subject.keyword | TF-IDF | el |
dc.subject.keyword | LDA topic modeling | el |
dc.date.defense | 2020-07-01 | |