dc.contributor.advisor | Χαλκίδη, Μαρία | |
dc.contributor.author | Καπότης, Χρήστος | |
dc.date.accessioned | 2021-02-24T12:54:25Z | |
dc.date.available | 2021-02-24T12:54:25Z | |
dc.date.issued | 2021-02 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/13273 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/696 | |
dc.description.abstract | Στην παρούσα εργασία υλοποιείται ένα realtime (πραγματικού χρόνου) pipeline, το οποίο απεικονίζει κάθε στιγμή τη δημοτικότητα των δύο υποψηφίων για την προεδρία της Αμερικής, χρησιμοποιώντας κάποιες από τις πιο δημοφιλή big data τεχνολογίες όπως Apache Spark, Streaming, Kafka και το ELK Stack (Elasticsearch, Logstash και Kibana).
Πιο συγκεκριμένα, όπως φαίνεται και στο Σχήμα 1, έχουν υλοποιηθεί δύο python producers οι οποίοι γεννούν ψεύτικες προτάσεις και τις στέλνουν στο Kafka Cluster μας. Εν συνεχεία η Spark υποδομή μας διαβάζει σε μορφή stream από το Kafka Cluster τις προτάσεις που αφορούν τους 2 υποψηφίους και υλοποιεί sentiment analysis ώστε να διαπιστωθεί εάν οι προτάσεις είναι θετικές, αρνητικές ή ουδέτερες. Μόλις υλοποιηθεί και το sentiment analysis και αφού έχουμε όλα τα δεδομένα που χρειαζόμαστε και όπως τα χρειαζόμαστε το Spark γράφει τα αποτελέσματα στο Κafka Cluster. Tέλος, με τη βοήθεια του Logstash μεταφέρουμε τα δεδομένα μας από το Kafka Cluster στο Elasticsearch με τελικό προορισμό το Κιbana ώστε να οπτικοποιήσουμε τα αποτελεσματα δημιουργώντας τα κατάλληλα διαγράμματα. | el |
dc.format.extent | 57 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.title | Μελέτη νέων τεχνολογιών για τη διαχείριση μεγάλου όγκου ροών δεδομένων | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | This paper implements a realtime pipeline, which depicts the momentum of the two candidates for the US presidency, using some of the most popular big data technologies such as Apache Spark, Streaming, Kafka and the ELK Stack (Elasticsearch, Logstash and Kibana).
More specifically, as shown in the picture 1, two python producers have been implemented who generate fake proposals and send them to our Kafka Cluster. Then our Spark infrastructure reads in the form of a stream from the Kafka Cluster the proposals concerning the 2 candidates and implements sentiment analysis to determine if the proposals are positive, negative or neutral. Once the sentiment analysis is implemented and after we have all the data we need and how we need it, Spark writes the results to the Kafka Cluster. Finally, with the help of Logstash we transfer our data from the Kafka Cluster to Elasticsearch with a final destination in Kibana to visualize the results by creating the appropriate diagrams. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | Big data | el |
dc.subject.keyword | Spark | el |
dc.subject.keyword | Streaming | el |
dc.subject.keyword | Kafka | el |
dc.subject.keyword | ELK | el |
dc.date.defense | 2021-02-22 | |