Αναλυτική αθλητικών δεδομένων
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Sports analytics ; Ανάλυση δεδομένωνΠερίληψη
Η διπλωματική εργασία ασχολείται με την ανάλυση αθλητικών δεδομένων (Sports
Analytics). Η ανάλυση των δεδομένων, όπως και σε άλλους τομείς, έτσι στον αθλητισμό
μπορούν να προσφέρουν πολλές χρήσιμές πληροφορίες στους ειδικούς των σπορ. Η
συλλογή των δεδομένων αυτών αυξάνεται με ραγδαίους ρυθμούς.
Στην εργασία αυτή χρησιμοποιήθηκαν δεδομένα από δύο πηγές σχετικά με το άθλημα
του ποδοσφαίρου. Το Dataset από τη πρώτη πηγή, το οποίο χρησιμοποιήθηκε, περιείχε
δεδομένα από +25000 αγώνες, +10000 παίχτες, στοιχηματικές αποδόσεις από έως και
10 παρόχους, αναλυτικά γεγονότα αγώνα (τύποι γκολ, κατοχή, κόρνερ, σέντρα, φάουλ,
κάρτες κ.λπ.) και 11 Ευρωπαϊκές χώρες τη σεζόν 2008 – 2016. Τα χαρακτηριστικά των
παικτών και των ομάδων προέρχονται από τη σειρά βιντεοπαιχνιδιών FIFA της EA Sports.
Με βάσει αυτό χρησιμοποιήθηκαν οι παρακάτω αλγόριθμοι μηχανική μάθησης , ώστε
να οδηγηθούμε στο μοντέλο με την αποδοτικότερη πρόβλεψη. Οι αλγόριθμοι ειναι οι KNearest-Neighbors (KNN), Support Vector Machines(SVM), Naïve Bayes(NB) και Random
Forest (RF). Έγινε η προεξεργασία των δεδομένων και καταλήξαμε σε ένα πίνακα με
22189 αγώνες (γραμμές) και 28 χαρακτηριστικά (στήλες) για τη καλύτερη ανάλυση των
δεδομένων και εξαγωγή συμπερασμάτων. Στόχος ήταν να οδηγηθούμε στον πιο
αποδοτικό αλγόριθμο και στα χαρακτηριστικά εκείνα που επηρεάζουν περισσότερο στη
πρόβλεψη του αποτελέσματος.
Το Dataset, από τη δεύτερη πηγή, περιείχε σύνολο δεδομένων «UCL 2021-22 | Players
Data». Αυτό το σύνολο περιλαμβάνει στατιστικά παιχτών για όλους τους αγώνες της
διοργάνωσης UEFA Champions league για την περίοδο 2021-2022, την πιο πρόσφατη
ολοκληρωμένη χρονιά. Ο στόχος είναι μέσω ανάλυσης των δεδομένων να ανιχνεύσουμε
στατιστικά σχετικά με την απόδοση των παιχτών ατομικά και των ομάδων, ώστε να
εντοπίσουμε τους κορυφαίους και τους πιο αδύναμος παίχτες και ομάδες. Βασικός
σκοπός της ανάλυσης είναι η κατάλληλη οπτικοποίηση των δεδομένων, ώστε να είναι
πιο εύκολη η κατανόηση του μηνύματος από τους αναγνώστες της ανάλυσης.