Ανάλυση δεδομένων και κατηγοριοποίηση
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ανάλυση ; Δεδομένα ; ΚατηγοριοποίησηΠερίληψη
Η παρούσα διπλωματική εργασία έχει ώς στόχο την παρουσίαση και την εφαρμογή αρχικών στατιστικών τεχνικών και αλγορίθμων μηχανικής μάθησης για την πρόβλεψη και κατηγοριοποίηση δεδομένων (Machine Learning and Classification).
Σε πρώτη φάση γίνεται εισαγωγή στην κατηγοριοποίηση και αναλυτικής δεδομένων και δή στην ανάλυση δεδομένων αθλητικόυ χαρακτήρα έτσι ώστε να γίνουν κατανοητά στον αναγνώστη ορολογίες και τεχνικές ανάλυσης που αφορούν δεδομένα αθλητικών διοργανώσεων.
Έπειτα, αναλύεται η σπουδαιότητα της Διερευνητικής Ανάλυσης Δεδομένων (Exploratory Data Analysis) διαμέσου της παρουσίασης δεδομένων διαμέσου της έρευνας προτύπων και τάσεων σε αυτά, με αποτέλεσμα τον καθορισμό και την παρουσίαση κατανοητής και χρήσιμης πληροφορίας προς τον τελικό χρήστη. Σε αυτό το κομμάτι θα χρησιμοποιηθεί η γλώσσα προγραμματισμού python και η βιβλιοθήκη pandas ώς εργαλείο ανάλυσης και η πρακτική δοκιμή θα γίνει σε ένα σύνολο δεδομένων που περιέχει συμβάντα τα οποία προέρχονται από το SFPD Crime Incident Reporting System και είναι διαθέσιμα στην ηλεκτρονική ιστοσελίδα Kaggle.com
Στην συνέχεια, παρουσιάζονται δεδομένα από το NBA (National Basketball Association). Αφού τα δεδομένα εξεταστούν υπόκεινται σε μια αρχική ανάλυση έτσι ώστε να καθοριστεί εάν είανι αξιόπιστα για δοκιμή στους αλγορίθμους μηχανικής μάθησης.Τα δεδομένα αυτά υπόκεινται σε δοκιμή από τους εξής αλγορίθμους: Deep Learning, Logistic Regression, Generalized Linear Model, Gradient Boosted Trees, Random Forest, Naive Bayes, Decision Tree, Fast Large Margin, Support Vector Machine.
Ώς απώτερος στόχος της ανάλυσης είναι αν μια ομάδα θα περάσει στα play offs (εξαρτημένη μεταβλητή) βάση των χαρακτηριστικών κάθε ομάδας (ανεξάρτητες μεταβλητές)
Έπειτα αφού παρουσιαστούν όλοι οι δοκιμαζόμενοι αλγόριθμοι μηχανικής μάθησης, παρουσιάζονται τα μέτρα αποδοτικότητάς τους και αξιολογούνται βάση των εξής μετρικών: ακρίβειας, ευαισθησίας, περιοχή κάτω από την καμπύλη ROC κ.α. αφού έχει προηγηθεί τυχαία επιλογή ανεξάρτητων μεταβλητών, με επικύρωση αλγορίθμων το train-test set με αναλογία 70%-30%.
Έπειτα παρουσιάζονται αποτελέσματα με χρηση της μεθόδου Forward Feature Selection η οποία είναι μέθοδος επιλογής χαρακτηριστικών (ανεξάρτητων μεταβλητών) διαμέσου αλγορίθμων μηχανικής μάθησης έτσι ώστε να επιλέγονται τα χαρακτηριστικά τα οποία προσφέρουν το μέγιστο στην πρόβλεψη και στην κατηγοριοποίηση. Το σημαντικό πλεονέκτημα αυτής της μεθόδου είναι ότι από ένα αρχικό σύνολο ανεξάρτητων μεταβλητών διαμέσου αλγορίθμων μηχανικής μάθησης χρησιμοποιούνται μόνο τα χαρακτηριστικά αυτά που προσφέρουν ουσιαστικά στην πρόβλεψη και με αυτή την διαδιαδικασία μειώνονται η πολυπλοκότητα και ο τελικός επεξεργαστικός χρόνος και αυξάνεται η ακρίβεια και η ευαισθησία των αλγορίθμων.