dc.contributor.advisor | Πικράκης, Άγγελος | |
dc.contributor.author | Χονδροματίδου, Λεωνιδίτσα | |
dc.date.accessioned | 2020-02-13T11:44:46Z | |
dc.date.available | 2020-02-13T11:44:46Z | |
dc.date.issued | 2019 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/12619 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/42 | |
dc.description.abstract | Το παρόν έργο έχει ως στόχο να διεξάγει ταξινόμηση βίντεο, εκπαιδεύοντας ένα δίκτυο αποτελούμενο από
στοιβαγμένες (stacked) LSTM μονάδες, έτσι ώστε να αναγνωρίζει το άθλημα που εμπεριέχεται σε ένα υποσύνολο
των βίντεο του Sports-1M Dataset. Η συνεισφορά αυτής της εργασίας είναι ότι σε αντίθεση με τις παραδοσιακές
μεθόδους ταξινόμησης βίντεο, όπου τροφοδοτούμε το δίκτυο με καρέ-εικόνες, εδώ χρησιμοποιούμε την βιβλιοθήκη
του Carnegie Mellon OpenPose, με σκοπό να αποσπάσουμε τα ανατομικά σημεία των ανθρώπων (στάση σώματος)
από έναν προκαθορισμένο αριθμό διαδοχικών καρέ, ως μεταβλητές εισόδου του δικτύου. Η κύρια πρόκληση αυτού
του εγχειρήματος είναι ότι το Sports-1M Dataset έχει δημιουργηθεί με αυτοματοποιημένο τρόπο και η λήψη των
βίντεο έχει γίνει από απλούς χρήστες, με αποτέλεσμα αυτά να περιέχουν θόρυβο. Ο θόρυβος προκύπτει είτε
από μη σχετικά βίντεο που έχουν επιλεχθεί λανθασμένα από το σύστημα παρατηρήσεων του YouTube, είτε
από χρήστες που δεν επικεντρώνονται στο άθλημα που λαμβάνει χώρα και σε ανύποπτο χρόνο κάνουν ζουμ
στο κοινό, πρόσωπο του αθλητή, περιβάλλον χώρο κλπ. Ταυτόχρονα, το παρόν σύνολο δεδομένων, εκτός από
τις καθιερωμένες δυσκολίες που παρουσιάζει ως σύνολο ελεύθερων βίντεο (όπως η έκθεση σε διαφορετικούς
φωτισμούς, κλίμακες, μη σταθερή κάμερα, σκοπιές κλπ) έχει και μεγάλες αποκλίσεις ως προς την διάρκεια
και ανάλυση των βίντεο. Η προσέγγιση που ακολουθήθηκε για την επίλυση των παραπάνω, ήταν για κάθε
βίντεο να οριστεί ένα σταθερό παράθυρο τριάντα (30) καρέ προς εξαγωγή (2 καρέ ανά δευτερόλεπτο - δηλαδή 15
δευτερόλεπτα βίντεο συνολικά), ξεκινώντας από το 30% του βίντεο, με σκοπό να αυξηθεί η πιθανότητα να πετύχει
το άθλημα όταν αυτό εκτελείται. Επιπρόσθετα, για να τεθεί υπό έλεγχο η ποσότητα και ποιότητα των ανθρώπων
(ανατομικών σημείων) που βρέθηκαν στο κάθε καρέ, οι άνθρωποι φιλτράρονται από έναν δείκτη ενδιαφέροντος,
που ποσοτικοποιεί το πόσο μεγάλοι σε μέγεθος, ολόκληροι και κεντραρισμένοι είναι σε σχέση με κάθε άλλο
άτομο στο καρέ. Το παραπάνω χρησιμοποιείται ως κανόνας για να επιλέξει τους δύο (2) πιο ενδιαφέροντες/σχετικούς
ανθρώπους. Κλείνοντας, ύστερα από αναζήτηση των παραμέτρων εκείνων που βελτιστοποιούν το εν λόγω
δίκτυο, αυτό ήταν σε θέση να παράξει αποτέλεσμα ακρίβειας (accuracy) 89% για 5 κατηγορίες αθλημάτων και 73% με 10. Το
δίκτυο αυτό απαρτιζόταν από 2 στοιβαγμένες LSTM μονάδες, με βάθος 64 και 32 κρυμμένων μονάδων αντίστοιχα
και ρυθμιστές (regularizers) L1, L2 σε κάθε επίπεδο. Τέλος, η κατηγοριοποίηση ολοκληρώθηκε από ένα πυκνά
συνδεδεμένο νευρωνικό δίκτυο με τόσες μονάδες όσες ήταν και οι αντίστοιχες κατηγορίες αθλημάτων. | el |
dc.format.extent | 61 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές | * |
dc.rights | Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-sa/4.0/ | * |
dc.title | Ταξινόμηση βίντεο με αναδρομικά νευρωνικά δίκτυα | el |
dc.title.alternative | Video classification with recurrent neural networks | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
dc.description.abstractEN | The present project aims to conduct video classification by training a network of stacked LSTM cells to
recognize the sport being conducted in a subset of Sports-1M Dataset. The contribution of this project is
that unlike traditional methods on video classification, that feed frame-images to the network, it attempts to
use Carnegie Mellon’s OpenPose pose-estimation library, to extract human poses from a predefined number
of frames and use them as input features to the network. This effort intends to help the network identify
and learn movement patterns from each sport. The main challenge of this undertaking was that Sports-1M
Dataset is a machine generated dataset, that contains user-produced videos and therefore is susceptible to
noise. The latter comes from possible unrelated videos mistakenly selected by YouTube’s annotation system
or the users not focusing on the sport carried out, but instead zooming randomly into the crowd, the face of a
player, zooming out on the empty field etc. Apart from common difficulties unconstrained videos introduce,
such as varied illumination, scale, camera motion, viewpoints etc., this dataset also varies substantially in
duration and resolution. The approach followed to counter the aforementioned challenges, was to define a
fixed window of 30 frames for each video (2 frames per second - aka 15 seconds of video), with the selection
beginning after 30% of video’s run time, in order to increase the probability of encountering the sport in
action. Furthermore, to control the quantity and quality of the people selected from each frame, the people
were filtered through an index of interest, which quantifies how big, complete and central each person is, in
relation to insignificant ones in the frame and use that as a rule to pick the 2 most interesting. Finally, after
hyperparameter investigation, the network was able to produce 89% accuracy, for 5 sport-classes and 73%
for 10 sport-classes. This was achieved through a network of stacked LSTM cells, of 64 and 32 units in depth
respectively, with L1, L2 regularizers applied at each layer, followed by a densely connected Neural Network
with the same amount of units, as the sport-classes. | el |
dc.contributor.master | Πληροφορική | el |
dc.subject.keyword | LSTM | el |
dc.subject.keyword | Αναδρομικά νευρωνικά δίκτυα | el |
dc.subject.keyword | Νευρωνικά δίκτυα | el |
dc.subject.keyword | Classification | el |
dc.subject.keyword | Ταξινόμηση | el |
dc.subject.keyword | Pose estimation | el |
dc.subject.keyword | Video classification | el |
dc.date.defense | 2019-09-30 | |