Εμφάνιση απλής εγγραφής

Ταξινόμηση βίντεο με αναδρομικά νευρωνικά δίκτυα

dc.contributor.advisorΠικράκης, Άγγελος
dc.contributor.authorΧονδροματίδου, Λεωνιδίτσα
dc.date.accessioned2020-02-13T11:44:46Z
dc.date.available2020-02-13T11:44:46Z
dc.date.issued2019
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/12619
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/42
dc.description.abstractΤο παρόν έργο έχει ως στόχο να διεξάγει ταξινόμηση βίντεο, εκπαιδεύοντας ένα δίκτυο αποτελούμενο από στοιβαγμένες (stacked) LSTM μονάδες, έτσι ώστε να αναγνωρίζει το άθλημα που εμπεριέχεται σε ένα υποσύνολο των βίντεο του Sports-1M Dataset. Η συνεισφορά αυτής της εργασίας είναι ότι σε αντίθεση με τις παραδοσιακές μεθόδους ταξινόμησης βίντεο, όπου τροφοδοτούμε το δίκτυο με καρέ-εικόνες, εδώ χρησιμοποιούμε την βιβλιοθήκη του Carnegie Mellon OpenPose, με σκοπό να αποσπάσουμε τα ανατομικά σημεία των ανθρώπων (στάση σώματος) από έναν προκαθορισμένο αριθμό διαδοχικών καρέ, ως μεταβλητές εισόδου του δικτύου. Η κύρια πρόκληση αυτού του εγχειρήματος είναι ότι το Sports-1M Dataset έχει δημιουργηθεί με αυτοματοποιημένο τρόπο και η λήψη των βίντεο έχει γίνει από απλούς χρήστες, με αποτέλεσμα αυτά να περιέχουν θόρυβο. Ο θόρυβος προκύπτει είτε από μη σχετικά βίντεο που έχουν επιλεχθεί λανθασμένα από το σύστημα παρατηρήσεων του YouTube, είτε από χρήστες που δεν επικεντρώνονται στο άθλημα που λαμβάνει χώρα και σε ανύποπτο χρόνο κάνουν ζουμ στο κοινό, πρόσωπο του αθλητή, περιβάλλον χώρο κλπ. Ταυτόχρονα, το παρόν σύνολο δεδομένων, εκτός από τις καθιερωμένες δυσκολίες που παρουσιάζει ως σύνολο ελεύθερων βίντεο (όπως η έκθεση σε διαφορετικούς φωτισμούς, κλίμακες, μη σταθερή κάμερα, σκοπιές κλπ) έχει και μεγάλες αποκλίσεις ως προς την διάρκεια και ανάλυση των βίντεο. Η προσέγγιση που ακολουθήθηκε για την επίλυση των παραπάνω, ήταν για κάθε βίντεο να οριστεί ένα σταθερό παράθυρο τριάντα (30) καρέ προς εξαγωγή (2 καρέ ανά δευτερόλεπτο - δηλαδή 15 δευτερόλεπτα βίντεο συνολικά), ξεκινώντας από το 30% του βίντεο, με σκοπό να αυξηθεί η πιθανότητα να πετύχει το άθλημα όταν αυτό εκτελείται. Επιπρόσθετα, για να τεθεί υπό έλεγχο η ποσότητα και ποιότητα των ανθρώπων (ανατομικών σημείων) που βρέθηκαν στο κάθε καρέ, οι άνθρωποι φιλτράρονται από έναν δείκτη ενδιαφέροντος, που ποσοτικοποιεί το πόσο μεγάλοι σε μέγεθος, ολόκληροι και κεντραρισμένοι είναι σε σχέση με κάθε άλλο άτομο στο καρέ. Το παραπάνω χρησιμοποιείται ως κανόνας για να επιλέξει τους δύο (2) πιο ενδιαφέροντες/σχετικούς ανθρώπους. Κλείνοντας, ύστερα από αναζήτηση των παραμέτρων εκείνων που βελτιστοποιούν το εν λόγω δίκτυο, αυτό ήταν σε θέση να παράξει αποτέλεσμα ακρίβειας (accuracy) 89% για 5 κατηγορίες αθλημάτων και 73% με 10. Το δίκτυο αυτό απαρτιζόταν από 2 στοιβαγμένες LSTM μονάδες, με βάθος 64 και 32 κρυμμένων μονάδων αντίστοιχα και ρυθμιστές (regularizers) L1, L2 σε κάθε επίπεδο. Τέλος, η κατηγοριοποίηση ολοκληρώθηκε από ένα πυκνά συνδεδεμένο νευρωνικό δίκτυο με τόσες μονάδες όσες ήταν και οι αντίστοιχες κατηγορίες αθλημάτων.el
dc.format.extent61el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsΑναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-sa/4.0/*
dc.titleΤαξινόμηση βίντεο με αναδρομικά νευρωνικά δίκτυαel
dc.title.alternativeVideo classification with recurrent neural networksel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENThe present project aims to conduct video classification by training a network of stacked LSTM cells to recognize the sport being conducted in a subset of Sports-1M Dataset. The contribution of this project is that unlike traditional methods on video classification, that feed frame-images to the network, it attempts to use Carnegie Mellon’s OpenPose pose-estimation library, to extract human poses from a predefined number of frames and use them as input features to the network. This effort intends to help the network identify and learn movement patterns from each sport. The main challenge of this undertaking was that Sports-1M Dataset is a machine generated dataset, that contains user-produced videos and therefore is susceptible to noise. The latter comes from possible unrelated videos mistakenly selected by YouTube’s annotation system or the users not focusing on the sport carried out, but instead zooming randomly into the crowd, the face of a player, zooming out on the empty field etc. Apart from common difficulties unconstrained videos introduce, such as varied illumination, scale, camera motion, viewpoints etc., this dataset also varies substantially in duration and resolution. The approach followed to counter the aforementioned challenges, was to define a fixed window of 30 frames for each video (2 frames per second - aka 15 seconds of video), with the selection beginning after 30% of video’s run time, in order to increase the probability of encountering the sport in action. Furthermore, to control the quantity and quality of the people selected from each frame, the people were filtered through an index of interest, which quantifies how big, complete and central each person is, in relation to insignificant ones in the frame and use that as a rule to pick the 2 most interesting. Finally, after hyperparameter investigation, the network was able to produce 89% accuracy, for 5 sport-classes and 73% for 10 sport-classes. This was achieved through a network of stacked LSTM cells, of 64 and 32 units in depth respectively, with L1, L2 regularizers applied at each layer, followed by a densely connected Neural Network with the same amount of units, as the sport-classes.el
dc.contributor.masterΠληροφορικήel
dc.subject.keywordLSTMel
dc.subject.keywordΑναδρομικά νευρωνικά δίκτυαel
dc.subject.keywordΝευρωνικά δίκτυαel
dc.subject.keywordClassificationel
dc.subject.keywordΤαξινόμησηel
dc.subject.keywordPose estimationel
dc.subject.keywordVideo classificationel
dc.date.defense2019-09-30


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»