Επεξεργασία ροών χωροκειμενικών δεδομένων
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Επεξεργασία συνεχόμενων ροών ; Streaming ; Apache Spark Streaming ; Spatio-textual Similarity JOIN ; Χωροκειμενικά δεδομένα ; Big dataΠερίληψη
Smartphones, wearables, health assistants, instagram, facebook, twitter, tic toc· Αυτές
είναι μόνο μερικές -πολύ γνωστές- από τις εκατοντάδες συσκευές και εφαρμογές που
πλέον απαιτούν τη συλλογή και επεξεργασία χωροκειμενικών (spatiotextual)
δεδομένων, ώστε να μπορούν να προσφέρουν την βέλτιστη εμπειρία για τους χρήστες
τους. Όπως είναι επόμενο, η χρήση “έξυπνων” συσκευών και αισθητήρων έχει αυξήσει
ραγδαία το μέγεθος της πληροφορίας που έχει να κάνει με την τοποθεσία και το κείμενο.
Αντίστοιχα, αυξάνονται οι ανάγκες για επεξεργασία και εξαγωγή αποτελεσμάτων σε
πραγματικό χρόνο.
Το Spatiotextual Similarity Join συνεχόμενων ροών χωροκειμενικών δεδομένων είναι
ένα από τα πλέον σημαντικά και σύγχρονα ερωτήματα που το συναντάμε σε διάφορες
εφαρμογές στο σήμερα. Αναφέρεται στην προσπάθεια να επιτευχθεί ζεύξη μεταξύ των
αντικειμένων μιας συνεχόμενης ροής δεδομένων που φέρουν γεωγραφική και κειμενική
πληροφορία, με ένα σύνολο χωροκειμενικών αντικειμένων αποθηκευμένων σε ένα
σύστημα.
Για παράδειγμα, ας υποθέσουμε πως έχουμε μια συνεχόμενη ροή και ένα σύνολο
χωροκειμενικών αντικειμένων, και παράλληλα, μας δίνεται μια ακτίνα αναζήτησης και
ένα κατώφλι κειμενικής ομοιότητας (threshold). Εμείς θα προσπαθήσουμε να
επιστρέψουμε ζευγάρια αντικειμένων από τα δύο προαναφερθέντα σύνολα, τα οποία
βρίσκονται σε απόσταση μικρότερη από την δοθείσα ακτίνα, ενώ η κειμενική τους
ομοιότητα κρίνεται μεγαλύτερη από το δοθέν threshold.
Γίνεται εύκολα αντιληπτό πως στις μέρες μας το μέγεθος των χωροκειμενικών
δεδομένων είναι αυξημένο και οι ανάγκες επεξεργασίας αυτών σε πραγματικό χρόνο
υπερβαίνουν τις δυνατότητες που μπορεί να προσφέρει ένα κεντρικοποιημένο σύστημα.
Γι’ αυτό κρίθηκε αναγκαία η υλοποίηση ενός συστήματος που να υιοθετεί την
κατανεμημένη τοπολογία και τεχνικές παράλληλης εκτέλεσης εργασιών.