Διαχείριση χωρο-κειμενικών δεδομένων μεγάλης κλίμακας

Ψαρρός, Αντώνης

Master Thesis

Συγγραφέας

Ψαρρός, Αντώνης

Ημερομηνία

2021-02

Περίληψη

Κατά την εκπόνηση της παρούσας Διπλωματικής εργασίας πραγματεύθηκε το πρόβλημα της σύζευξης μεγάλου όγκου χωροκειμενικών δεδομένων. Δεδομένα τα οποία αποτελούνται από εγγραφές όπου η κάθε μία περιέχει (lon,lat,text) όπου lon, lat είναι οι συντεταγμένες και text είναι το κείμενο κάθε εγγραφής, κάθε εγγραφή αποτελεί ένα αντικείμενο x. Το κριτήριο για την ομοιότητα δύο αντικείμενων x,v είναι ο έλεγχος της απόστασης στο χώρο των x,v το οποίο υπολογίζεται με τον τύπο Haversine Distance. Για την εύρεση της ομοιότητας του κειμένου των δύο αντικειμένων x,v χρησιμοποιείται το τύπος Jaccard Similarity. Για το παραπάνω πρόβλημα δημιουργήθηκε ένας αλγόριθμος που το υλοποιεί και έγινε εφαρμογή αυτού του αλγορίθμου σε κατανεμημένο περιβάλλον από υπολογιστές με χρήση του εργαλείου Apache Spark, όπου χρησιμοποίει τις δυνατότητες επεξεργασίας δεδομένων του επεξεργαστή κάθε υπολογιστή. Επίσης, έγινε μια επιπλέον υλοποίηση του αλγορίθμου με σκοπό να εκμεταλλεύεται τις δυνατότητες επεξεργασίες της κάρτας γραφικών κάτι που επιτεύχθηκε χρησιμοποιώντας εργαλεία της Nvidia. Τέλος, με για την εκτέλεση αλγορίθμων χωροκειμενικής σύζευξης σε Apache Spark δημιουργήθηκε διαδικτυακή πλατφόρμα με σκοπό να έχει τη δυνατότητα ένας χρήστης να ανεβάζει έναν αλγόριθμο που απαντά σε αυτό το πρόβλημα, να τον εκτελεί και να κάνει προβολή των αποτελεσμάτων σε χάρτη. Επιπλέον, ο χρήστης μπορεί να κάνει προβολή των dataset που δέχεται σαν είσοδο ο κάθε αλγόριθμος σε χάρτη.

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Πληροφοριακά Συστήματα και Υπηρεσίες

Τμήμα

Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων

Αριθμός σελίδων

Γλώσσα

Ελληνικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/13276
http://dx.doi.org/10.26267/unipi_dione/699

Συλλογή

Τμήμα Ψηφιακών Συστημάτων

Εμφάνιση πλήρους εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές