Μελέτη νέων τεχνολογιών για τη διαχείριση μεγάλου όγκου ροών δεδομένων
Προβολή/ Άνοιγμα
Περίληψη
Στην παρούσα εργασία υλοποιείται ένα realtime (πραγματικού χρόνου) pipeline, το οποίο απεικονίζει κάθε στιγμή τη δημοτικότητα των δύο υποψηφίων για την προεδρία της Αμερικής, χρησιμοποιώντας κάποιες από τις πιο δημοφιλή big data τεχνολογίες όπως Apache Spark, Streaming, Kafka και το ELK Stack (Elasticsearch, Logstash και Kibana).
Πιο συγκεκριμένα, όπως φαίνεται και στο Σχήμα 1, έχουν υλοποιηθεί δύο python producers οι οποίοι γεννούν ψεύτικες προτάσεις και τις στέλνουν στο Kafka Cluster μας. Εν συνεχεία η Spark υποδομή μας διαβάζει σε μορφή stream από το Kafka Cluster τις προτάσεις που αφορούν τους 2 υποψηφίους και υλοποιεί sentiment analysis ώστε να διαπιστωθεί εάν οι προτάσεις είναι θετικές, αρνητικές ή ουδέτερες. Μόλις υλοποιηθεί και το sentiment analysis και αφού έχουμε όλα τα δεδομένα που χρειαζόμαστε και όπως τα χρειαζόμαστε το Spark γράφει τα αποτελέσματα στο Κafka Cluster. Tέλος, με τη βοήθεια του Logstash μεταφέρουμε τα δεδομένα μας από το Kafka Cluster στο Elasticsearch με τελικό προορισμό το Κιbana ώστε να οπτικοποιήσουμε τα αποτελεσματα δημιουργώντας τα κατάλληλα διαγράμματα.