Αποδοτική διαχείριση δεδομένων με χρήση πολυδιάστατων ευρετηρίων στο υπολογιστικό νέφος

Γεωργάτου, Χρυσούλα Δ.

Master Thesis

Συγγραφέας

Γεωργάτου, Χρυσούλα Δ.

Ημερομηνία

2015-04-24

Περίληψη

Η παρούσα διπλωματική εργασία πραγματεύεται τη διαχείριση μεγάλου όγκου δεδομένων σε υπολογιστικό νέφος. Συγκεκριμένα μελετά τη δυνατότητα χρησιμοποίησης R-tree ευρετηρίων για την ταχύτερη εκτέλεση επερωτήσεων σε πολυδιάστατα δεδομένα αποθηκευμένα στο υπολογιστικό νέφος. Αρχικά, παρουσιάζεται το υπολογιστικό νέφος και περιγράφεται η πολυδιάστατη φύση των δεδομένων καθώς και η αναγκαιότητα χρήσης ευρετηρίων κατά την εκτέλεση επερωτήσεων πάνω σε αυτά. Στη συνέχεια περιγράφεται το framework του Hadoop και το προγραμματιστικό μοντέλο Map Reduce στο οποίο και βασίζεται η προσέγγιση που παρουσιάζεται. Γίνεται μια βιβλιογραφική αναφορά αντίστοιχων προγενέστερων μελετών με στόχο τη βελτίωση του Hadoop και παρουσιάζονται τα αποτελέσματά τους. Επίσης γίνεται μια παρουσίαση της δομής ευρετηρίου R-tree και περιγράφεται η εκτέλεση επερωτήσεων με χρήση της. Εν συνεχεία γίνεται αναφορά στη σχεδίαση που ακολουθήθηκε και στην υλοποίηση με λεπτομέρειες για τον κώδικα μου αναπτύχθηκε. Ακόλουθα περιγράφεται το περιβάλλον δοκιμών καθώς και τα σενάρια που ακολουθήθηκαν. Εκτελέστηκαν επερωτήσεις εύρους (range queries) με χρήση R-tree ευρετηρίου και χωρίς χρήση αυτού για διαφορετικά αρχεία εισόδου κατά περίπτωση, με διαφορετικό αριθμό σημείων και διαστάσεων. Τέλος καταγράφονται τα συμπεράσματα που προέκυψαν από την πειραματική μελέτη και αποδεικνύουν ότι η χρήση R-tree ευρετηρίου βελτιώνει την απόδοση του Hadoop κατά την εκτέλεση επερωτήσεων εύρους πάνω σε πολυδιάστατα δεδομένα και ακολουθούν προτάσεις για μελλοντική έρευνα.