dc.contributor.advisor | Δουλκερίδης, Χρήστος | |
dc.contributor.author | Κάσδαγλης, Σπύρος | |
dc.date.accessioned | 2022-03-18T12:49:02Z | |
dc.date.available | 2022-03-18T12:49:02Z | |
dc.date.issued | 2022-02 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/14235 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/1658 | |
dc.description.abstract | Smartphones, wearables, health assistants, instagram, facebook, twitter, tic toc· Αυτές
είναι μόνο μερικές -πολύ γνωστές- από τις εκατοντάδες συσκευές και εφαρμογές που
πλέον απαιτούν τη συλλογή και επεξεργασία χωροκειμενικών (spatiotextual)
δεδομένων, ώστε να μπορούν να προσφέρουν την βέλτιστη εμπειρία για τους χρήστες
τους. Όπως είναι επόμενο, η χρήση “έξυπνων” συσκευών και αισθητήρων έχει αυξήσει
ραγδαία το μέγεθος της πληροφορίας που έχει να κάνει με την τοποθεσία και το κείμενο.
Αντίστοιχα, αυξάνονται οι ανάγκες για επεξεργασία και εξαγωγή αποτελεσμάτων σε
πραγματικό χρόνο.
Το Spatiotextual Similarity Join συνεχόμενων ροών χωροκειμενικών δεδομένων είναι
ένα από τα πλέον σημαντικά και σύγχρονα ερωτήματα που το συναντάμε σε διάφορες
εφαρμογές στο σήμερα. Αναφέρεται στην προσπάθεια να επιτευχθεί ζεύξη μεταξύ των
αντικειμένων μιας συνεχόμενης ροής δεδομένων που φέρουν γεωγραφική και κειμενική
πληροφορία, με ένα σύνολο χωροκειμενικών αντικειμένων αποθηκευμένων σε ένα
σύστημα.
Για παράδειγμα, ας υποθέσουμε πως έχουμε μια συνεχόμενη ροή και ένα σύνολο
χωροκειμενικών αντικειμένων, και παράλληλα, μας δίνεται μια ακτίνα αναζήτησης και
ένα κατώφλι κειμενικής ομοιότητας (threshold). Εμείς θα προσπαθήσουμε να
επιστρέψουμε ζευγάρια αντικειμένων από τα δύο προαναφερθέντα σύνολα, τα οποία
βρίσκονται σε απόσταση μικρότερη από την δοθείσα ακτίνα, ενώ η κειμενική τους
ομοιότητα κρίνεται μεγαλύτερη από το δοθέν threshold.
Γίνεται εύκολα αντιληπτό πως στις μέρες μας το μέγεθος των χωροκειμενικών
δεδομένων είναι αυξημένο και οι ανάγκες επεξεργασίας αυτών σε πραγματικό χρόνο
υπερβαίνουν τις δυνατότητες που μπορεί να προσφέρει ένα κεντρικοποιημένο σύστημα.
Γι’ αυτό κρίθηκε αναγκαία η υλοποίηση ενός συστήματος που να υιοθετεί την
κατανεμημένη τοπολογία και τεχνικές παράλληλης εκτέλεσης εργασιών. | el |
dc.format.extent | 59 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Επεξεργασία ροών χωροκειμενικών δεδομένων | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | Smartphones, wearables, health assistants, instagram, facebook, twitter, tic toc· are
only some -well known- of hundreds of devices and applications that nowdays require
the collection and processing of spatiotextual data in order to provide the best possible
user experience. Therefore, the use of smart devices and sensors has caused a rapid
increase of the amount of data that contain location and text info. As a result,
processing and real-time result extraction needs rise accordingly.
Spatiotextual similarity join of streaming data is one of the foremost operations in
spatiotextual data integration and finds usage in various applications. It refers to the
execution of the needed operations in order to achieve join between the streaming data
that contain spatiotextual info and a set of spatiotextual objects.
For example, let’s assume a set of streaming and a set of static spatiotextual data, as
well as a given spatial range radius and a text similarity threshold. We are attempting to
determine all the similar pairs from the two sets that are in a closer distance than the
given radius, while at the same time their textual similarity ranking is greater than the
given threshold.
It is easily understood that nowadays, the big volume of spatial-textual data and the
need for real-time processing go beyond the possibilities that a centralized system can
offer. Therefore, the development of a system with a decentralized topology that makes
use of parallel processing techniques is considered necessary. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | Επεξεργασία συνεχόμενων ροών | el |
dc.subject.keyword | Streaming | el |
dc.subject.keyword | Apache Spark Streaming | el |
dc.subject.keyword | Spatio-textual Similarity JOIN | el |
dc.subject.keyword | Χωροκειμενικά δεδομένα | el |
dc.subject.keyword | Big data | el |
dc.date.defense | 2022-02-28 | |