dc.contributor.advisor | Δουλκερίδης, Χρήστος | |
dc.contributor.author | Μουκουβίνας, Αθανάσιος | |
dc.date.accessioned | 2021-07-12T09:58:22Z | |
dc.date.available | 2021-07-12T09:58:22Z | |
dc.date.issued | 2021-06 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/13556 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/979 | |
dc.description.abstract | Μία από τις πιο δημοφιλείς αναζητήσεις της εποχής μας είναι προσπάθεια ανεύρεσης αντικειμένων τα οποία όχι μόνο βρίσκονται εντός μια επιθυμητής απόστασης, αλλά επιπλέον παρουσιάζουν ομοιότητα σε στοιχεία τα οποία μπορούν να εκφραστούν με τη μορφή κειμένου. Η καθημερινότητά μας χαρακτηρίζεται από τα Μεγάλα Δεδομένα, τα οποία θέτουν μεγάλες προκλήσεις. Προκειμένου να αποκτηθούν γρήγορα τα αποτελέσματα του ερωτήματος μιας τέτοιας αναζήτησης, και να εξαχθούν μέσα από μεγάλα σύνολα δεδομένων, είναι χρήσιμο να τεθεί το ερώτημα αυτό σε συστήματα τα οποία ευνοούν γρήγορη επεξεργασία. Επιπλέον, είναι χρήσιμο να εφαρμοστούν μέθοδοι αποδοτικής κατανομής των δεδομένων προκειμένου να μειωθεί το χρονικό κόστος.
Στην παρούσα εργασία εργαζόμαστε σε κεντρικοποιημένο περιβάλλον και εξετάζονται μέθοδοι κατανομής χωροκειμενικών δεδομένων, προσομοιάζοντας μεθόδους που μπορούν να εφαρμοστούν σε κατανεμημένα συστήματα. Εξετάζεται η κατανομή δεδομένων με βάση το κειμενικό τους μέρος και επίσης εξετάζεται η κατανομή με βάση το χωρικό στίγμα τους. Για την πρώτη μέθοδο εκμεταλλευόμαστε τη συχνότητα που έχουν οι λέξεις μέσα σε ένα σύνολο δεδομένων ενώ για τη δεύτερη μέθοδο χωρίζουμε τον χώρο σε ζώνες εκμεταλλευόμενοι τα ποσοστημόρια των τιμών γεωγραφικού πλάτους τους τα οποία μπορούμε να εξάγουμε από ένα δείγμα των δεδομένων χωρίς μεγάλη επιβάρυνση. Και οι δύο μέθοδοι μπορούν να επιτύχουν εξισορροπημένη κατανομή των δεδομένων με την καθεμία να έχει τα δικά της πλεονεκτήματα και προτιμώμενες εφαρμογές. | el |
dc.format.extent | 56 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Επεξεργασία χωρο-κειμενικών συζεύξεων για δεδομένα μεγάλης κλίμακας | el |
dc.title.alternative | Large-scale processing of spatio-textual joins | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | In our era, it is very popular to search for objects that can be found both between a user-defined distance and having a similarity in their textual features. Big Data are everywhere and are a challenge for the scientific community. It is important to have fast processes that can manage big data sets, so it is of most significance to apply the process regarding the aforementioned search on systems that support distributed processes. Ιs is also useful to implement efficient methods that reduce the time cost.
For this Thesis, we worked on a centralized environment, we investigated methods of spatio-textual data distribution and processing and we performed a simulation that can be used as a guide for implementation in distributed frameworks. At first, we look into distributing data based on their textual part, but we also worked on distributing data based on their spatial features. For the first method we took advantage of the tokens frequency across the data set. For the second method we partitioned space in zones taking advantage of a data sample and percentiles of their coordinates values Both methods can achieve balanced distribution and each one of them has its preferable advantages. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | Spatio-textual | el |
dc.subject.keyword | Spatial | el |
dc.subject.keyword | Textual | el |
dc.subject.keyword | Joins | el |
dc.subject.keyword | Συζεύξεις | el |
dc.subject.keyword | Κατανεμημένα | el |
dc.subject.keyword | Partitioning | el |
dc.subject.keyword | Tokens | el |
dc.subject.keyword | Load | el |
dc.subject.keyword | Balancing | el |
dc.subject.keyword | Εξισορρόπηση | el |
dc.date.defense | 2021-06-28 | |