Ανάπτυξη μεθόδων χωρο-κειμενικής ευρετηρίασης σε μη-σχεσιακές βάσεις δεδομένων
Development of methods for spatio-textual indexing in NoSQL stores
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Spatio-textual queries ; Spatio-textual indexing ; NoSQL stores ; MongoDB ; HBase ; Hilbert curve ; Boolean range queries ; Space-filling curveΠερίληψη
Στις μέρες μας, υπάρχουν πολλές εταιρείες πληροφορικής που χρησιμοποιούν GPS υπηρεσίες στα προϊόντα που προσφέρουν στους πελάτες τους. Το πιο χαρακτηριστικό παράδειγμα είναι εταιρεία Google με την εφαρμογή Google maps. Η βασική υπηρεσία της εφαρμογής, είναι να παρέχει οδηγίες μεταφοράς στους χρήστες της, από ένα γεωγραφικό στίγμα σε ένα άλλο. Επίσης, παραδείγματα είναι οι εταιρείες Uber και Beat που προσφέρουν υπηρεσίες οδικής μεταφοράς των πελατών τους, από ένα σημείο σταθμό σε κάποιον προορισμό. Οι συγκεκριμένες εφαρμογές κατά την εκτέλεση τους επεξεργάζονται γεωγραφικά δεδομένα. Ένα απλό ερώτημα που μπορεί να εκτελέσει η εφαρμογή Google maps είναι μια αναζήτηση των πλησιέστερων cafe από ένα σημείο στίγματος, Αντίστοιχα, για τις εφαρμογές Uber και Beat, ο πελάτης μπορεί να θέλει να επιλέξει το φύλλο του οδηγού που θα εκτελέσει την οδική μεταφορά π.χ. να είναι γυναίκα. Εύκολα μπορεί να αντιληφθεί κάποιος ότι οι συγκεκριμένες εφαρμογές πέρα από γεωγραφικά δεδομένα, επεξεργάζονται και κειμενικά δεδομένα. Φυσικά, επεξεργάζονται και χρονική πληροφορία αλλά αυτό δεν θα εξεταστεί στη συγκεκριμένη διπλωματική εργασία.
Η αποθήκευση και η επεξεργασία όλων αυτών των δεδομένων, από τις συγκεκριμένες εφαρμογές που αναφέρθηκαν στην προηγούμενη παράγραφο, απαιτούν βάσεις δεδομένων που προσφέρουν υψηλή απόδοση (performance), διαθεσιμότητα (availability) και επεκτασιμότητα (scalability). Ένα Σχεσιακό σύστημα διαχείρισης βάσεων δεδομένων (Relational Database Management System) δεν μπορεί να καλύψει τις συγκεκριμένες ανάγκες. Σε αντίθεση με τις NoSQL βάσεις δεδομένων όπου η χρήση τους, ενδείκνυται για τέτοιου είδους δεδομένα. Η ιδιαιτερότητα των NoSQL βάσεων δεδομένων, είναι ότι δεν διαθέτουν όλες απευθείας χωρική ή χωρο-κειμενική ευρετηρίαση, αλλά παρέχουν τεχνικές που μπορούν να υποστηρίξουν τέτοιου είδους δυνατότητες.
Σε αυτή την διπλωματική, θα παρουσιαστούν τεχνικές ευρετηρίασης πάνω σε χωρο-κειμενικά δεδομένα. Αυτές οι τεχνικές θα υλοποιηθούν πάνω στο NoDA API [1] για MongoDB και HBase Stores, επεκτείνοντας προηγούμενη δουλεία της Big Data ερευνητικής ομάδας του Πανεπιστημίου Πειραιώς, πάνω σε χωρο-κειμενικά δεδομένα. To NoDA API είναι ένα ενδιάμεσο επίπεδο ανάμεσα στην εφαρμογή και τα NoSQL Stores υποστηρίζοντας χωρο-χρονικές και χωρο-κειμενικές τεχνικές ευρετηρίασης.