Μελέτη νέων τεχνολογιών για τη διαχείριση μεγάλου όγκου ροών δεδομένων

Καπότης, Χρήστος

dc.contributor.advisor	Χαλκίδη, Μαρία
dc.contributor.author	Καπότης, Χρήστος
dc.date.accessioned	2021-02-24T12:54:25Z
dc.date.available	2021-02-24T12:54:25Z
dc.date.issued	2021-02
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/13273
dc.identifier.uri	http://dx.doi.org/10.26267/unipi_dione/696
dc.description.abstract	Στην παρούσα εργασία υλοποιείται ένα realtime (πραγματικού χρόνου) pipeline, το οποίο απεικονίζει κάθε στιγμή τη δημοτικότητα των δύο υποψηφίων για την προεδρία της Αμερικής, χρησιμοποιώντας κάποιες από τις πιο δημοφιλή big data τεχνολογίες όπως Apache Spark, Streaming, Kafka και το ELK Stack (Elasticsearch, Logstash και Kibana). Πιο συγκεκριμένα, όπως φαίνεται και στο Σχήμα 1, έχουν υλοποιηθεί δύο python producers οι οποίοι γεννούν ψεύτικες προτάσεις και τις στέλνουν στο Kafka Cluster μας. Εν συνεχεία η Spark υποδομή μας διαβάζει σε μορφή stream από το Kafka Cluster τις προτάσεις που αφορούν τους 2 υποψηφίους και υλοποιεί sentiment analysis ώστε να διαπιστωθεί εάν οι προτάσεις είναι θετικές, αρνητικές ή ουδέτερες. Μόλις υλοποιηθεί και το sentiment analysis και αφού έχουμε όλα τα δεδομένα που χρειαζόμαστε και όπως τα χρειαζόμαστε το Spark γράφει τα αποτελέσματα στο Κafka Cluster. Tέλος, με τη βοήθεια του Logstash μεταφέρουμε τα δεδομένα μας από το Kafka Cluster στο Elasticsearch με τελικό προορισμό το Κιbana ώστε να οπτικοποιήσουμε τα αποτελεσματα δημιουργώντας τα κατάλληλα διαγράμματα.	el
dc.format.extent	57	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.title	Μελέτη νέων τεχνολογιών για τη διαχείριση μεγάλου όγκου ροών δεδομένων	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	This paper implements a realtime pipeline, which depicts the momentum of the two candidates for the US presidency, using some of the most popular big data technologies such as Apache Spark, Streaming, Kafka and the ELK Stack (Elasticsearch, Logstash and Kibana). More specifically, as shown in the picture 1, two python producers have been implemented who generate fake proposals and send them to our Kafka Cluster. Then our Spark infrastructure reads in the form of a stream from the Kafka Cluster the proposals concerning the 2 candidates and implements sentiment analysis to determine if the proposals are positive, negative or neutral. Once the sentiment analysis is implemented and after we have all the data we need and how we need it, Spark writes the results to the Kafka Cluster. Finally, with the help of Logstash we transfer our data from the Kafka Cluster to Elasticsearch with a final destination in Kibana to visualize the results by creating the appropriate diagrams.	el
dc.contributor.master	Πληροφοριακά Συστήματα και Υπηρεσίες	el
dc.subject.keyword	Big data	el
dc.subject.keyword	Spark	el
dc.subject.keyword	Streaming	el
dc.subject.keyword	Kafka	el
dc.subject.keyword	ELK	el
dc.date.defense	2021-02-22

Αρχεία σε αυτό το τεκμήριο

Name:: Kapotis_me1926.pdf
Μέγεθος:: 2.345Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής