Διαχείριση χωρο-κειμενικών δεδομένων μεγάλης κλίμακας
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Apache Spark ; Spatio-textual join ; Spatial join ; Web-based platformΠερίληψη
Κατά την εκπόνηση της παρούσας Διπλωματικής εργασίας πραγματεύθηκε το πρόβλημα της σύζευξης μεγάλου όγκου χωροκειμενικών δεδομένων. Δεδομένα τα οποία αποτελούνται από εγγραφές όπου η κάθε μία περιέχει (lon,lat,text) όπου lon, lat είναι οι συντεταγμένες και text είναι το κείμενο κάθε εγγραφής, κάθε εγγραφή αποτελεί ένα αντικείμενο x. Το κριτήριο για την ομοιότητα δύο αντικείμενων x,v είναι ο έλεγχος της απόστασης στο χώρο των x,v το οποίο υπολογίζεται με τον τύπο Haversine Distance. Για την εύρεση της ομοιότητας του κειμένου των δύο αντικειμένων x,v χρησιμοποιείται το τύπος Jaccard Similarity.
Για το παραπάνω πρόβλημα δημιουργήθηκε ένας αλγόριθμος που το υλοποιεί και έγινε εφαρμογή αυτού του αλγορίθμου σε κατανεμημένο περιβάλλον από υπολογιστές με χρήση του εργαλείου Apache Spark, όπου χρησιμοποίει τις δυνατότητες επεξεργασίας δεδομένων του επεξεργαστή κάθε υπολογιστή. Επίσης, έγινε μια επιπλέον υλοποίηση του αλγορίθμου με σκοπό να εκμεταλλεύεται τις δυνατότητες επεξεργασίες της κάρτας γραφικών κάτι που επιτεύχθηκε χρησιμοποιώντας εργαλεία της Nvidia.
Τέλος, με για την εκτέλεση αλγορίθμων χωροκειμενικής σύζευξης σε Apache Spark δημιουργήθηκε διαδικτυακή πλατφόρμα με σκοπό να έχει τη δυνατότητα ένας χρήστης να ανεβάζει έναν αλγόριθμο που απαντά σε αυτό το πρόβλημα, να τον εκτελεί και να κάνει προβολή των αποτελεσμάτων σε χάρτη. Επιπλέον, ο χρήστης μπορεί να κάνει προβολή των dataset που δέχεται σαν είσοδο ο κάθε αλγόριθμος σε χάρτη.