Ταξινόμηση βίντεο με αναδρομικά νευρωνικά δίκτυα

Χονδροματίδου, Λεωνιδίτσα

dc.contributor.advisor	Πικράκης, Άγγελος
dc.contributor.author	Χονδροματίδου, Λεωνιδίτσα
dc.date.accessioned	2020-02-13T11:44:46Z
dc.date.available	2020-02-13T11:44:46Z
dc.date.issued	2019
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/12619
dc.identifier.uri	http://dx.doi.org/10.26267/unipi_dione/42
dc.description.abstract	Το παρόν έργο έχει ως στόχο να διεξάγει ταξινόμηση βίντεο, εκπαιδεύοντας ένα δίκτυο αποτελούμενο από στοιβαγμένες (stacked) LSTM μονάδες, έτσι ώστε να αναγνωρίζει το άθλημα που εμπεριέχεται σε ένα υποσύνολο των βίντεο του Sports-1M Dataset. Η συνεισφορά αυτής της εργασίας είναι ότι σε αντίθεση με τις παραδοσιακές μεθόδους ταξινόμησης βίντεο, όπου τροφοδοτούμε το δίκτυο με καρέ-εικόνες, εδώ χρησιμοποιούμε την βιβλιοθήκη του Carnegie Mellon OpenPose, με σκοπό να αποσπάσουμε τα ανατομικά σημεία των ανθρώπων (στάση σώματος) από έναν προκαθορισμένο αριθμό διαδοχικών καρέ, ως μεταβλητές εισόδου του δικτύου. Η κύρια πρόκληση αυτού του εγχειρήματος είναι ότι το Sports-1M Dataset έχει δημιουργηθεί με αυτοματοποιημένο τρόπο και η λήψη των βίντεο έχει γίνει από απλούς χρήστες, με αποτέλεσμα αυτά να περιέχουν θόρυβο. Ο θόρυβος προκύπτει είτε από μη σχετικά βίντεο που έχουν επιλεχθεί λανθασμένα από το σύστημα παρατηρήσεων του YouTube, είτε από χρήστες που δεν επικεντρώνονται στο άθλημα που λαμβάνει χώρα και σε ανύποπτο χρόνο κάνουν ζουμ στο κοινό, πρόσωπο του αθλητή, περιβάλλον χώρο κλπ. Ταυτόχρονα, το παρόν σύνολο δεδομένων, εκτός από τις καθιερωμένες δυσκολίες που παρουσιάζει ως σύνολο ελεύθερων βίντεο (όπως η έκθεση σε διαφορετικούς φωτισμούς, κλίμακες, μη σταθερή κάμερα, σκοπιές κλπ) έχει και μεγάλες αποκλίσεις ως προς την διάρκεια και ανάλυση των βίντεο. Η προσέγγιση που ακολουθήθηκε για την επίλυση των παραπάνω, ήταν για κάθε βίντεο να οριστεί ένα σταθερό παράθυρο τριάντα (30) καρέ προς εξαγωγή (2 καρέ ανά δευτερόλεπτο - δηλαδή 15 δευτερόλεπτα βίντεο συνολικά), ξεκινώντας από το 30% του βίντεο, με σκοπό να αυξηθεί η πιθανότητα να πετύχει το άθλημα όταν αυτό εκτελείται. Επιπρόσθετα, για να τεθεί υπό έλεγχο η ποσότητα και ποιότητα των ανθρώπων (ανατομικών σημείων) που βρέθηκαν στο κάθε καρέ, οι άνθρωποι φιλτράρονται από έναν δείκτη ενδιαφέροντος, που ποσοτικοποιεί το πόσο μεγάλοι σε μέγεθος, ολόκληροι και κεντραρισμένοι είναι σε σχέση με κάθε άλλο άτομο στο καρέ. Το παραπάνω χρησιμοποιείται ως κανόνας για να επιλέξει τους δύο (2) πιο ενδιαφέροντες/σχετικούς ανθρώπους. Κλείνοντας, ύστερα από αναζήτηση των παραμέτρων εκείνων που βελτιστοποιούν το εν λόγω δίκτυο, αυτό ήταν σε θέση να παράξει αποτέλεσμα ακρίβειας (accuracy) 89% για 5 κατηγορίες αθλημάτων και 73% με 10. Το δίκτυο αυτό απαρτιζόταν από 2 στοιβαγμένες LSTM μονάδες, με βάθος 64 και 32 κρυμμένων μονάδων αντίστοιχα και ρυθμιστές (regularizers) L1, L2 σε κάθε επίπεδο. Τέλος, η κατηγοριοποίηση ολοκληρώθηκε από ένα πυκνά συνδεδεμένο νευρωνικό δίκτυο με τόσες μονάδες όσες ήταν και οι αντίστοιχες κατηγορίες αθλημάτων.	el
dc.format.extent	61	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές	*
dc.rights	Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-sa/4.0/	*
dc.title	Ταξινόμηση βίντεο με αναδρομικά νευρωνικά δίκτυα	el
dc.title.alternative	Video classification with recurrent neural networks	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής	el
dc.description.abstractEN	The present project aims to conduct video classification by training a network of stacked LSTM cells to recognize the sport being conducted in a subset of Sports-1M Dataset. The contribution of this project is that unlike traditional methods on video classification, that feed frame-images to the network, it attempts to use Carnegie Mellon’s OpenPose pose-estimation library, to extract human poses from a predefined number of frames and use them as input features to the network. This effort intends to help the network identify and learn movement patterns from each sport. The main challenge of this undertaking was that Sports-1M Dataset is a machine generated dataset, that contains user-produced videos and therefore is susceptible to noise. The latter comes from possible unrelated videos mistakenly selected by YouTube’s annotation system or the users not focusing on the sport carried out, but instead zooming randomly into the crowd, the face of a player, zooming out on the empty field etc. Apart from common difficulties unconstrained videos introduce, such as varied illumination, scale, camera motion, viewpoints etc., this dataset also varies substantially in duration and resolution. The approach followed to counter the aforementioned challenges, was to define a fixed window of 30 frames for each video (2 frames per second - aka 15 seconds of video), with the selection beginning after 30% of video’s run time, in order to increase the probability of encountering the sport in action. Furthermore, to control the quantity and quality of the people selected from each frame, the people were filtered through an index of interest, which quantifies how big, complete and central each person is, in relation to insignificant ones in the frame and use that as a rule to pick the 2 most interesting. Finally, after hyperparameter investigation, the network was able to produce 89% accuracy, for 5 sport-classes and 73% for 10 sport-classes. This was achieved through a network of stacked LSTM cells, of 64 and 32 units in depth respectively, with L1, L2 regularizers applied at each layer, followed by a densely connected Neural Network with the same amount of units, as the sport-classes.	el
dc.contributor.master	Πληροφορική	el
dc.subject.keyword	LSTM	el
dc.subject.keyword	Αναδρομικά νευρωνικά δίκτυα	el
dc.subject.keyword	Νευρωνικά δίκτυα	el
dc.subject.keyword	Classification	el
dc.subject.keyword	Ταξινόμηση	el
dc.subject.keyword	Pose estimation	el
dc.subject.keyword	Video classification	el
dc.date.defense	2019-09-30

Αρχεία σε αυτό το τεκμήριο

Name:: chondromatidou_14093.pdf
Μέγεθος:: 17.28Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Πληροφορικής
Department of Informatics

Εμφάνιση απλής εγγραφής

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές