dc.contributor.advisor | Δουλκερίδης, Χρήστος | |
dc.contributor.author | Ψαρρός, Αντώνης | |
dc.date.accessioned | 2021-03-02T05:50:05Z | |
dc.date.available | 2021-03-02T05:50:05Z | |
dc.date.issued | 2021-02 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/13276 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/699 | |
dc.description.abstract | Κατά την εκπόνηση της παρούσας Διπλωματικής εργασίας πραγματεύθηκε το πρόβλημα της σύζευξης μεγάλου όγκου χωροκειμενικών δεδομένων. Δεδομένα τα οποία αποτελούνται από εγγραφές όπου η κάθε μία περιέχει (lon,lat,text) όπου lon, lat είναι οι συντεταγμένες και text είναι το κείμενο κάθε εγγραφής, κάθε εγγραφή αποτελεί ένα αντικείμενο x. Το κριτήριο για την ομοιότητα δύο αντικείμενων x,v είναι ο έλεγχος της απόστασης στο χώρο των x,v το οποίο υπολογίζεται με τον τύπο Haversine Distance. Για την εύρεση της ομοιότητας του κειμένου των δύο αντικειμένων x,v χρησιμοποιείται το τύπος Jaccard Similarity.
Για το παραπάνω πρόβλημα δημιουργήθηκε ένας αλγόριθμος που το υλοποιεί και έγινε εφαρμογή αυτού του αλγορίθμου σε κατανεμημένο περιβάλλον από υπολογιστές με χρήση του εργαλείου Apache Spark, όπου χρησιμοποίει τις δυνατότητες επεξεργασίας δεδομένων του επεξεργαστή κάθε υπολογιστή. Επίσης, έγινε μια επιπλέον υλοποίηση του αλγορίθμου με σκοπό να εκμεταλλεύεται τις δυνατότητες επεξεργασίες της κάρτας γραφικών κάτι που επιτεύχθηκε χρησιμοποιώντας εργαλεία της Nvidia.
Τέλος, με για την εκτέλεση αλγορίθμων χωροκειμενικής σύζευξης σε Apache Spark δημιουργήθηκε διαδικτυακή πλατφόρμα με σκοπό να έχει τη δυνατότητα ένας χρήστης να ανεβάζει έναν αλγόριθμο που απαντά σε αυτό το πρόβλημα, να τον εκτελεί και να κάνει προβολή των αποτελεσμάτων σε χάρτη. Επιπλέον, ο χρήστης μπορεί να κάνει προβολή των dataset που δέχεται σαν είσοδο ο κάθε αλγόριθμος σε χάρτη. | el |
dc.format.extent | 71 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.title | Διαχείριση χωρο-κειμενικών δεδομένων μεγάλης κλίμακας | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | In this thesis attempt was made to deal with the problem of joining a great amount of spatio-textual data. Data consist of records each one of which consists of the coordinates (lon, lan) and the text. Every record is an object x. There are two criteria that define the similarity between two objects, the distance and the text similarity.
In order for the problem mentioned above to be solved, an algorithm was created. This algorithm was put into practice in distributed computer environment, using the Apache Spark tool and taking advantage of the power and the data processing abilities of every computer processor. The algorithm was also used with the aim of taking advantage of the graphics processor abilities which was managed with the use of Nvidia tools.
Finally, an online platform was created for the execution of spatio-textual join algorithms in Apache Spark. In this platform each user is able to upload an algorithm that solves the problem, execute it, and even visualize the results in a chart. Moreover, it offers the ability to visualize the initial dataset that the algorithm accepts as an input. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | Apache Spark | el |
dc.subject.keyword | Spatio-textual join | el |
dc.subject.keyword | Spatial join | el |
dc.subject.keyword | Web-based platform | el |
dc.date.defense | 2021-02-22 | |