Επεξεργασία χωρο-κειμενικών συζεύξεων για δεδομένα μεγάλης κλίμακας
Large-scale processing of spatio-textual joins
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Spatio-textual ; Spatial ; Textual ; Joins ; Συζεύξεις ; Κατανεμημένα ; Partitioning ; Tokens ; Load ; Balancing ; ΕξισορρόπησηΠερίληψη
Μία από τις πιο δημοφιλείς αναζητήσεις της εποχής μας είναι προσπάθεια ανεύρεσης αντικειμένων τα οποία όχι μόνο βρίσκονται εντός μια επιθυμητής απόστασης, αλλά επιπλέον παρουσιάζουν ομοιότητα σε στοιχεία τα οποία μπορούν να εκφραστούν με τη μορφή κειμένου. Η καθημερινότητά μας χαρακτηρίζεται από τα Μεγάλα Δεδομένα, τα οποία θέτουν μεγάλες προκλήσεις. Προκειμένου να αποκτηθούν γρήγορα τα αποτελέσματα του ερωτήματος μιας τέτοιας αναζήτησης, και να εξαχθούν μέσα από μεγάλα σύνολα δεδομένων, είναι χρήσιμο να τεθεί το ερώτημα αυτό σε συστήματα τα οποία ευνοούν γρήγορη επεξεργασία. Επιπλέον, είναι χρήσιμο να εφαρμοστούν μέθοδοι αποδοτικής κατανομής των δεδομένων προκειμένου να μειωθεί το χρονικό κόστος.
Στην παρούσα εργασία εργαζόμαστε σε κεντρικοποιημένο περιβάλλον και εξετάζονται μέθοδοι κατανομής χωροκειμενικών δεδομένων, προσομοιάζοντας μεθόδους που μπορούν να εφαρμοστούν σε κατανεμημένα συστήματα. Εξετάζεται η κατανομή δεδομένων με βάση το κειμενικό τους μέρος και επίσης εξετάζεται η κατανομή με βάση το χωρικό στίγμα τους. Για την πρώτη μέθοδο εκμεταλλευόμαστε τη συχνότητα που έχουν οι λέξεις μέσα σε ένα σύνολο δεδομένων ενώ για τη δεύτερη μέθοδο χωρίζουμε τον χώρο σε ζώνες εκμεταλλευόμενοι τα ποσοστημόρια των τιμών γεωγραφικού πλάτους τους τα οποία μπορούμε να εξάγουμε από ένα δείγμα των δεδομένων χωρίς μεγάλη επιβάρυνση. Και οι δύο μέθοδοι μπορούν να επιτύχουν εξισορροπημένη κατανομή των δεδομένων με την καθεμία να έχει τα δικά της πλεονεκτήματα και προτιμώμενες εφαρμογές.