Εξόρυξη γνώσης από δεδομένα μεταφορικής αλυσίδας - πειραματισμός με το εργαλείο Spark MLlib
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Συστήματα υποστήριξης αποφάσεων ; Εξόρυξη δεδομένων ; Μηχανική μάθηση ; Αλγόριθμοι ; Μεταφορικές εταιρείες ; Big data ; Machine Learning Library (MLlib) ; Spark ; Decision trees ; Data cleaningΠερίληψη
Ένα "Σύστημα Υποστήριξης Αποφάσεων (ΣΥΑ)" είναι ένα είδος πληροφοριακού
συστήματος, το οποίο υποστηρίζει τη λήψη αποφάσεων σε επιχειρήσεις και
οργανισμούς. Ένα ΣΥΑ έχει σκοπό να βοηθήσει τους αποφασίζοντες να
συγκεντρώσουν χρήσιμες πληροφορίες μέσα από ένα συνδυασμό δεδομένων,
εγγράφων, προσωπικής γνώσης, ή να βοηθήσει τα επιχειρηματικά μοντέλα να
αναγνωρίσουν και να λύσουν προβλήματα και να πάρουν αποφάσεις. Στην εποχή μας
ο όγκος των δεδομένων είναι τεράστιος και αυξάνεται με ραγδαίους ρυθμούς. Το
γεγονός αυτό έφερε σαν αποτέλεσμα την ανάπτυξη καινούριων τεχνολογιών και
εργαλείων για την διαχείρισή τους, όπως η εξόρυξη δεδομένων. Η εξόρυξη
δεδομένων συνίσταται στην ανακάλυψη ενδιαφερόντων τάσεων ή προτύπων
σχημάτων μέσα σε μεγάλα σύνολα δεδομένων, με σκοπό να καθοδηγήσει αποφάσεις
σχετικές με μελλοντικές δραστηριότητες.
Η παρούσα διπλωματική εργασία παρουσιάζει την ανάλυση τέτοιων δεδομένων
χρησιμοποιώντας κατανεμημένες τεχνολογίες διαχείρισης δεδομένων και
συγκεκριμένα το εργαλείο Spark Mllib (Machine learning library) με στόχο την ορθή
λήψη επιχειρηματικών αποφάσεων . Θα αναπτυχθούν σε θεωρητικό επίπεδο έννοιες
όπως επιχειρηματική νοημοσύνη (Business intelligence), μεγάλα δεδομένα (Big data),
εξόρυξη γνώσης (Data mining), αποθήκη δεδομένων (Data Warehouses) και η
διαδικασία ανάλυσης που θα ακολουθηθεί. Θα αντληθούν πραγματικά δεδομένα
απο κάποια εταιρεία στα οποία, αφού γίνει καθαρισμός, κατάλληλη προ‐
επεξεργασία, ελάττωση τους και μετασχηματισμοί, θα εφαρμοσθούν αλγόριθμοι
κατηγοριοποίησης (classification) και ομαδοποίησης (clustering). Σκοπός αυτής της
διαδικασίας είναι η ανακάλυψη γνώσης μέσα από την μελέτη διάφορων προτύπων
(patterns) που θα προκύψουν από την ανάλυσή μας. Στην συνέχεια θα γίνουν
προτάσεις εφαρμογής αυτής της γνώσης και θα αναλυθούν τα συμπεράσματα-
αποτελέσματα.