Αναλυτική δεδομένων αγώνων καλαθοσφαίρισης για την πρόβλεψη αποτελεσμάτων και εξαγωγή γνώσης
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Μηχανική μάθηση ; Aναλυτική αθλητικών δεδομένων ; Κατηγοριοποίηση ; Πρόβλεψη μπάσκετ ; Euroleague ; NBA ; Multi-layer perceptron ; k-nearest neighbors ; Logistic regression ; Support Vector Machines (SVM) ; Random forest ; Pearson correlation ; Machine learning ; Classification ; Sports analyticsΠερίληψη
Η παρούσα Διπλωματική εργασία ασχολείται με την Aναλυτική αθλητικών δεδομένων (Sports Analytics). Όπως σε πολλούς άλλους κλάδους, έτσι και στον αθλητισμό ο ρυθμός συλλογής δεδομένων αυξάνεται συνεχώς τα τελευταία χρόνια. Χρησιμοποιήθηκαν δεδομένα απο το άθλημα της καλαθοσφαίρησης (Basketball) .
Πιο συγκεκριμένα αναλύθηκαν 2 σύνολα δεδομένων (dataset) απο τα δύο μεγαλύτερα πρωταθλήματα του κόσμου, του NBA και της Euroleague. Κάθε dataset περιέχει στατιστικά δεδομένα ομάδων για τις χρονιές 2005-06 έως και 2018-19. Εκτός απο τα πολλά στατιστικά που αφορούν δεδομένα ενός αγώνα όπως πόντοι , ασιστ , ριμπάουντ, κλεψίματα κ.α. δίνεται και η επιτυχία εισαγωγής ή όχι στα playoff του αντίστοιχου πρωταθλήματος. Δεδομένο με το οποίο θα ασχοληθούμε, μιας και είναι η κλάση του dataset.
Χρησιμοποιήθηκαν οι παρακάτω αλγόριθμοι επιβλεπόμενης μηχανική μάθησης (Supervised Learning) , ώστε να παρουσιαστεί πιο μοντέλο μπορεί να κάνει αποδοτικότερη πρόβλεψη ανα πρωτάθλημα. Οι αλγόριθμοι ειναι Logistic Regression, k-nearest neighbors (KNN), Support Vector Machine (SVM), Random Forest, Νευρωνικό δίκτυο(Multi-layer Perceptron) . Χρησιμοποιήθηκαν σε 3 διαφορετικά σενάρια που αφόρούσαν επεξεργασμένα δεδομένα με διάφορες τεχνικές όπως standardization, Pearson correlation και στατιστικά μεσης τιμής .
Απότερος στόχος ήταν να κάνουμε πρόβλεψη της τελευταίας 5ετίας με τους παραπανω κατηγοριοποιητές , βάσει των προηγούμενων χρόνων για κάθε σύνολο δεδομένων.
Ως τελευταίο κομμάτι αυτής της διπλωματικής ήταν να χρησιμοποιήσουμε το καλύτερο μοντέλο ανα πρωτάθλημα και να το εφαρμόσουμε (fit) στο αντίθετο πρωτάθλημα.