Εμφάνιση απλής εγγραφής

dc.contributor.advisorΧαλκίδη, Μαρία
dc.contributor.authorΚαπότης, Χρήστος
dc.date.accessioned2021-02-24T12:54:25Z
dc.date.available2021-02-24T12:54:25Z
dc.date.issued2021-02
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/13273
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/696
dc.description.abstractΣτην παρούσα εργασία υλοποιείται ένα realtime (πραγματικού χρόνου) pipeline, το οποίο απεικονίζει κάθε στιγμή τη δημοτικότητα των δύο υποψηφίων για την προεδρία της Αμερικής, χρησιμοποιώντας κάποιες από τις πιο δημοφιλή big data τεχνολογίες όπως Apache Spark, Streaming, Kafka και το ELK Stack (Elasticsearch, Logstash και Kibana). Πιο συγκεκριμένα, όπως φαίνεται και στο Σχήμα 1, έχουν υλοποιηθεί δύο python producers οι οποίοι γεννούν ψεύτικες προτάσεις και τις στέλνουν στο Kafka Cluster μας. Εν συνεχεία η Spark υποδομή μας διαβάζει σε μορφή stream από το Kafka Cluster τις προτάσεις που αφορούν τους 2 υποψηφίους και υλοποιεί sentiment analysis ώστε να διαπιστωθεί εάν οι προτάσεις είναι θετικές, αρνητικές ή ουδέτερες. Μόλις υλοποιηθεί και το sentiment analysis και αφού έχουμε όλα τα δεδομένα που χρειαζόμαστε και όπως τα χρειαζόμαστε το Spark γράφει τα αποτελέσματα στο Κafka Cluster. Tέλος, με τη βοήθεια του Logstash μεταφέρουμε τα δεδομένα μας από το Kafka Cluster στο Elasticsearch με τελικό προορισμό το Κιbana ώστε να οπτικοποιήσουμε τα αποτελεσματα δημιουργώντας τα κατάλληλα διαγράμματα.el
dc.format.extent57el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.titleΜελέτη νέων τεχνολογιών για τη διαχείριση μεγάλου όγκου ροών δεδομένωνel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENThis paper implements a realtime pipeline, which depicts the momentum of the two candidates for the US presidency, using some of the most popular big data technologies such as Apache Spark, Streaming, Kafka and the ELK Stack (Elasticsearch, Logstash and Kibana). More specifically, as shown in the picture 1, two python producers have been implemented who generate fake proposals and send them to our Kafka Cluster. Then our Spark infrastructure reads in the form of a stream from the Kafka Cluster the proposals concerning the 2 candidates and implements sentiment analysis to determine if the proposals are positive, negative or neutral. Once the sentiment analysis is implemented and after we have all the data we need and how we need it, Spark writes the results to the Kafka Cluster. Finally, with the help of Logstash we transfer our data from the Kafka Cluster to Elasticsearch with a final destination in Kibana to visualize the results by creating the appropriate diagrams.el
dc.contributor.masterΠληροφοριακά Συστήματα και Υπηρεσίεςel
dc.subject.keywordBig datael
dc.subject.keywordSparkel
dc.subject.keywordStreamingel
dc.subject.keywordKafkael
dc.subject.keywordELKel
dc.date.defense2021-02-22


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής


Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»