dc.contributor.author | Περτέσης, Δημήτριος | |
dc.date.accessioned | 2014-10-21T10:33:30Z | |
dc.date.available | 2014-10-21T10:33:30Z | |
dc.date.issued | 2014-10-21T10:33:30Z | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/6081 | |
dc.description.abstract | Το MapReduce είναι ένα προγραμματιστικό μοντέλο που επιτρέπει την επεξεργασία μεγάλου όγκου δεδομένων σε ένα cluster από μηχανήματα. Ένα MapReduce job διαμοιράζει τα δεδομένα εισόδου σε ένα σύνολο από ανεξάρτητα κομμάτια τα οποία επεξεργάζονται από τις map διεργασίες παράλληλα. Το framework ταξινομεί τις εξόδους των map οι οποίες θα είναι στη συνέχεια είσοδοι στις reduce διεργασίες. Οι είσοδοι και έξοδοι ενός job αποθηκεύονται σε ένα σύστημα αρχείων. Το framework φροντίζει για τον προγραμματισμό και έλεγχο των διεργασιών καθώς και την επανεκτέλεση αποτυχημένων διεργασιών. Το πιο γνωστό ανοιχτού κώδικα λογισμικό είναι το Apache Hadoop. Πρόσφατα, έχει αναπτυχθεί μια επέκταση του Apache Hadoop με ονομασία SpatialHadoop. Το SpatialHadoop έχει σχεδιαστεί ειδικά να χειρίζεται μεγάλα σύνολα χωρικών δεδομένων. Το SpatialHadoop περιέχει έτοιμους χωρικούς τύπους δεδομένων αλλά μας επιτρέπει τη δημιουργία και δικών μας τύπων δεδομένων. Επιπλέον, υποστηρίζει ένα σύνολο από χωρικές λειτουργίες και δείκτες.
Σε αυτήν την εργασία, αναπτύξαμε δύο αποδοτικούς αλγόριθμους επεξεργασίας skyline ερωτημάτων και τους υλοποιήσαμε στο SpatialHadoop. Επίσης, τους συγκρίναμε με έναν αλγόριθμο που προτείνεται από το «CG_Hadoop: Computational Geometry in MapReduce» paper. Το αντικείμενο αυτής της μελέτης είναι η υλοποίηση αλγορίθμων που θα είναι αποδοτικοί σε διαφορετικές κατανομές των δεδομένων όπως uniform correlated και anti-correlated. Οι αλγόριθμοι θα πρέπει να δουλεύουν σωστά ανεξάρτητα αν τα αρχεία που επεξεργαζόμαστε περιέχουν ή όχι δείκτες. Για να αξιολογήσουμε την απόδοση των τριών αλγορίθμων υλοποιήσαμε μια σειρά πειραμάτων σε ένα cluster με 17 μηχανήματα. | |
dc.language.iso | el | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/deed.el | |
dc.subject | Αρχιτεκτονική ηλεκτρονικών υπολογιστών | |
dc.subject | Ηλεκτρονικοί επεξεργασία δεδομένων | |
dc.subject | Παράλληλη επεξεργασία (Ηλεκτρονικοί υπολογιστές) -- Hadoop MapReduce | |
dc.subject | Apache Hadoop (Computer file) | |
dc.subject | Θεωρία γραφημάτων | |
dc.subject | Parallel programming (Computer science) | |
dc.subject | Ηλεκτρονικοί υπολογιστές -- Προγραμματισμός -- Hadoop MapReduce | |
dc.subject | Ηλεκτρονικοί υπολογιστές -- Προγραμματισμός | |
dc.title | Skyline query processing in Spatial Hadoop | |
dc.type | Master Thesis | |
dc.identifier.call | 005.1 ΠΕΡ | |
dc.description.abstractEN | The MapReduce programming model allows us to process large data sets on a cluster of machines. A MapReduce job usually splits the input data set into independent chunks which are processed by the map tasks in a completely parallel manner. The framework sorts the outputs of the maps, which are then input to the reduce tasks. Typically both the input and the output of the job are stored in a file-system. The framework takes care of scheduling tasks, monitoring them and re-executes the failed tasks. The most popular open-source implementation is Apache Hadoop. Recently, an extension to Apache Hadoop has been developed called SpatialHadoop. SpatialHadoop is designed to handle large data sets of spatial data. SpatialHadoop contains spatial built-in data types but you can define your own data types. Moreover, it supports a variety of spatial operations and indexes.
In this project, we developed two efficient skyline computation algorithms and implemented on SpatialHadoop. Also, we compared them with an algorithm proposed in «CG_Hadoop: Computational Geometry in MapReduce» paper. The object of this study is to implement algorithms that will be efficient in uniform, correlated and anti-correlated distributions of data. These algorithms should also be capable to work with indexed and non-indexed input files. In order to evaluate the efficiency of these three algorithms we ran a set of experiments in a cluster of 17 nodes. | |