Ταξινόμηση βίντεο με αναδρομικά νευρωνικά δίκτυα
Video classification with recurrent neural networks
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
LSTM ; Αναδρομικά νευρωνικά δίκτυα ; Νευρωνικά δίκτυα ; Classification ; Ταξινόμηση ; Pose estimation ; Video classificationΠερίληψη
Το παρόν έργο έχει ως στόχο να διεξάγει ταξινόμηση βίντεο, εκπαιδεύοντας ένα δίκτυο αποτελούμενο από
στοιβαγμένες (stacked) LSTM μονάδες, έτσι ώστε να αναγνωρίζει το άθλημα που εμπεριέχεται σε ένα υποσύνολο
των βίντεο του Sports-1M Dataset. Η συνεισφορά αυτής της εργασίας είναι ότι σε αντίθεση με τις παραδοσιακές
μεθόδους ταξινόμησης βίντεο, όπου τροφοδοτούμε το δίκτυο με καρέ-εικόνες, εδώ χρησιμοποιούμε την βιβλιοθήκη
του Carnegie Mellon OpenPose, με σκοπό να αποσπάσουμε τα ανατομικά σημεία των ανθρώπων (στάση σώματος)
από έναν προκαθορισμένο αριθμό διαδοχικών καρέ, ως μεταβλητές εισόδου του δικτύου. Η κύρια πρόκληση αυτού
του εγχειρήματος είναι ότι το Sports-1M Dataset έχει δημιουργηθεί με αυτοματοποιημένο τρόπο και η λήψη των
βίντεο έχει γίνει από απλούς χρήστες, με αποτέλεσμα αυτά να περιέχουν θόρυβο. Ο θόρυβος προκύπτει είτε
από μη σχετικά βίντεο που έχουν επιλεχθεί λανθασμένα από το σύστημα παρατηρήσεων του YouTube, είτε
από χρήστες που δεν επικεντρώνονται στο άθλημα που λαμβάνει χώρα και σε ανύποπτο χρόνο κάνουν ζουμ
στο κοινό, πρόσωπο του αθλητή, περιβάλλον χώρο κλπ. Ταυτόχρονα, το παρόν σύνολο δεδομένων, εκτός από
τις καθιερωμένες δυσκολίες που παρουσιάζει ως σύνολο ελεύθερων βίντεο (όπως η έκθεση σε διαφορετικούς
φωτισμούς, κλίμακες, μη σταθερή κάμερα, σκοπιές κλπ) έχει και μεγάλες αποκλίσεις ως προς την διάρκεια
και ανάλυση των βίντεο. Η προσέγγιση που ακολουθήθηκε για την επίλυση των παραπάνω, ήταν για κάθε
βίντεο να οριστεί ένα σταθερό παράθυρο τριάντα (30) καρέ προς εξαγωγή (2 καρέ ανά δευτερόλεπτο - δηλαδή 15
δευτερόλεπτα βίντεο συνολικά), ξεκινώντας από το 30% του βίντεο, με σκοπό να αυξηθεί η πιθανότητα να πετύχει
το άθλημα όταν αυτό εκτελείται. Επιπρόσθετα, για να τεθεί υπό έλεγχο η ποσότητα και ποιότητα των ανθρώπων
(ανατομικών σημείων) που βρέθηκαν στο κάθε καρέ, οι άνθρωποι φιλτράρονται από έναν δείκτη ενδιαφέροντος,
που ποσοτικοποιεί το πόσο μεγάλοι σε μέγεθος, ολόκληροι και κεντραρισμένοι είναι σε σχέση με κάθε άλλο
άτομο στο καρέ. Το παραπάνω χρησιμοποιείται ως κανόνας για να επιλέξει τους δύο (2) πιο ενδιαφέροντες/σχετικούς
ανθρώπους. Κλείνοντας, ύστερα από αναζήτηση των παραμέτρων εκείνων που βελτιστοποιούν το εν λόγω
δίκτυο, αυτό ήταν σε θέση να παράξει αποτέλεσμα ακρίβειας (accuracy) 89% για 5 κατηγορίες αθλημάτων και 73% με 10. Το
δίκτυο αυτό απαρτιζόταν από 2 στοιβαγμένες LSTM μονάδες, με βάθος 64 και 32 κρυμμένων μονάδων αντίστοιχα
και ρυθμιστές (regularizers) L1, L2 σε κάθε επίπεδο. Τέλος, η κατηγοριοποίηση ολοκληρώθηκε από ένα πυκνά
συνδεδεμένο νευρωνικό δίκτυο με τόσες μονάδες όσες ήταν και οι αντίστοιχες κατηγορίες αθλημάτων.