Skyline query processing in Spatial Hadoop

Περτέσης, Δημήτριος

dc.contributor.author	Περτέσης, Δημήτριος
dc.date.accessioned	2014-10-21T10:33:30Z
dc.date.available	2014-10-21T10:33:30Z
dc.date.issued	2014-10-21T10:33:30Z
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/6081
dc.description.abstract	Το MapReduce είναι ένα προγραμματιστικό μοντέλο που επιτρέπει την επεξεργασία μεγάλου όγκου δεδομένων σε ένα cluster από μηχανήματα. Ένα MapReduce job διαμοιράζει τα δεδομένα εισόδου σε ένα σύνολο από ανεξάρτητα κομμάτια τα οποία επεξεργάζονται από τις map διεργασίες παράλληλα. Το framework ταξινομεί τις εξόδους των map οι οποίες θα είναι στη συνέχεια είσοδοι στις reduce διεργασίες. Οι είσοδοι και έξοδοι ενός job αποθηκεύονται σε ένα σύστημα αρχείων. Το framework φροντίζει για τον προγραμματισμό και έλεγχο των διεργασιών καθώς και την επανεκτέλεση αποτυχημένων διεργασιών. Το πιο γνωστό ανοιχτού κώδικα λογισμικό είναι το Apache Hadoop. Πρόσφατα, έχει αναπτυχθεί μια επέκταση του Apache Hadoop με ονομασία SpatialHadoop. Το SpatialHadoop έχει σχεδιαστεί ειδικά να χειρίζεται μεγάλα σύνολα χωρικών δεδομένων. Το SpatialHadoop περιέχει έτοιμους χωρικούς τύπους δεδομένων αλλά μας επιτρέπει τη δημιουργία και δικών μας τύπων δεδομένων. Επιπλέον, υποστηρίζει ένα σύνολο από χωρικές λειτουργίες και δείκτες. Σε αυτήν την εργασία, αναπτύξαμε δύο αποδοτικούς αλγόριθμους επεξεργασίας skyline ερωτημάτων και τους υλοποιήσαμε στο SpatialHadoop. Επίσης, τους συγκρίναμε με έναν αλγόριθμο που προτείνεται από το «CG_Hadoop: Computational Geometry in MapReduce» paper. Το αντικείμενο αυτής της μελέτης είναι η υλοποίηση αλγορίθμων που θα είναι αποδοτικοί σε διαφορετικές κατανομές των δεδομένων όπως uniform correlated και anti-correlated. Οι αλγόριθμοι θα πρέπει να δουλεύουν σωστά ανεξάρτητα αν τα αρχεία που επεξεργαζόμαστε περιέχουν ή όχι δείκτες. Για να αξιολογήσουμε την απόδοση των τριών αλγορίθμων υλοποιήσαμε μια σειρά πειραμάτων σε ένα cluster με 17 μηχανήματα.
dc.language.iso	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/deed.el
dc.subject	Αρχιτεκτονική ηλεκτρονικών υπολογιστών
dc.subject	Ηλεκτρονικοί επεξεργασία δεδομένων
dc.subject	Παράλληλη επεξεργασία (Ηλεκτρονικοί υπολογιστές) -- Hadoop MapReduce
dc.subject	Apache Hadoop (Computer file)
dc.subject	Θεωρία γραφημάτων
dc.subject	Parallel programming (Computer science)
dc.subject	Ηλεκτρονικοί υπολογιστές -- Προγραμματισμός -- Hadoop MapReduce
dc.subject	Ηλεκτρονικοί υπολογιστές -- Προγραμματισμός
dc.title	Skyline query processing in Spatial Hadoop
dc.type	Master Thesis
dc.identifier.call	005.1 ΠΕΡ
dc.description.abstractEN	The MapReduce programming model allows us to process large data sets on a cluster of machines. A MapReduce job usually splits the input data set into independent chunks which are processed by the map tasks in a completely parallel manner. The framework sorts the outputs of the maps, which are then input to the reduce tasks. Typically both the input and the output of the job are stored in a file-system. The framework takes care of scheduling tasks, monitoring them and re-executes the failed tasks. The most popular open-source implementation is Apache Hadoop. Recently, an extension to Apache Hadoop has been developed called SpatialHadoop. SpatialHadoop is designed to handle large data sets of spatial data. SpatialHadoop contains spatial built-in data types but you can define your own data types. Moreover, it supports a variety of spatial operations and indexes. In this project, we developed two efficient skyline computation algorithms and implemented on SpatialHadoop. Also, we compared them with an algorithm proposed in «CG_Hadoop: Computational Geometry in MapReduce» paper. The object of this study is to implement algorithms that will be efficient in uniform, correlated and anti-correlated distributions of data. These algorithms should also be capable to work with indexed and non-indexed input files. In order to evaluate the efficiency of these three algorithms we ran a set of experiments in a cluster of 17 nodes.

Αρχεία σε αυτό το τεκμήριο

Name:: Pertesis.pdf
Μέγεθος:: 1.011Mb
Τύπος:: PDF

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές