Εμφάνιση απλής εγγραφής

Αυτόματη περιγραφή οπτικοακουστικών σκηνών με χρήση βαθέων νευρωνικών δικτύων

dc.contributor.advisorΠικράκης, Άγγελος
dc.contributor.authorΒαρτιάν, Ασαντούρ
dc.date.accessioned2024-02-13T08:14:28Z
dc.date.available2024-02-13T08:14:28Z
dc.date.issued2023-12
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/16169
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/3591
dc.description.abstractΗ Μηχανική Μάθηση είναι ένα ταχέως αναπτυσσόμενο πεδίο της πληροφορικής, ικανό να παρέχει λύσεις σε απαιτητικά προβλήματα αυξανόμενης πολυπλοκότητας. Στο πλαίσιο αυτό, ο στόχος αυτής της διατριβής είναι να οικοδομηθεί ένα σύστημα με σκοπό την αυτόματη περιγραφή της σκηνής βίντεο χρησιμοποιώντας μια αλληλουχία συνδυαστικών μοντέλων μηχανικής μάθησης. Για το σκοπό αυτό, ένα σήμα βίντεο αντιμετωπίζεται ως μια ακολουθία εικόνων και κάθε εικόνα τροφοδοτείται ως είσοδος σε μια αρχιτεκτονική CLIP που αυτή τελικά παράγει μια περιγραφή εικόνας. Το CLIP είναι ένα embedding ανοιχτού κώδικα εκπαιδευμένο να συσχετίζει την εικόνα με το κείμενο. Σε επόμενο βήμα, η ακολουθία των παραγόμενων περιγραφών συνενώνεται και δίνεται ως είσοδος σε ένα μοντέλο μετασχηματιστή που παράγει την τελική περιγραφή της σκηνής του βίντεο. Προκειμένου να επιτύχουμε καλύτερα αποτελέσματα σε αυτό το δεύτερο στάδιο επεξεργασίας, επανεκπαιδεύσαμε και βελτιστοποιήσαμε τα μοντέλα μετασχηματιστών τους BART και Pegasus χρησιμοποιώντας το Σύνολο Δεδομένων LSMDC (Large Scale Movie Description Challenge Dataset). Η απόδοση του προτεινόμενου συστήματος αξιολογήθηκε χρησιμοποιώντας διάφορες καθιερωμένες μετρικές.el
dc.format.extent38el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleΑυτόματη περιγραφή οπτικοακουστικών σκηνών με χρήση βαθέων νευρωνικών δικτύωνel
dc.title.alternativeAutomatic description of audiovisual scenes using deep neural networksel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENMachine Learning is a rapidly growing field of informatics, capable of providing solutions to demanding problems of increasing complexity. In that context, the goal of this thesis is to build a system for the purposed of automatic video scene description using machine learning pipeline. To this end, a video signal is treated as a sequence of images and each image is fed as input to a CLIP architecture which generated an image description. CLIP is an open-source embedding trained to associate image with text. At a next step, the sequence of generated descriptions is concatenated and it is given as input to a transformer model which produces the final description of the video scene. In order to obtain better results at this second processing stage, we re-trained and fine-tuned the BART and Pegasus transformer models using the Large Scale Movie Description Challenge Dataset (LSMDC). The performance of the the proposed pipeline was assessed using various established metrics.el
dc.contributor.masterΚυβερνοασφάλεια και Επιστήμη Δεδομένωνel
dc.subject.keywordCLIPel
dc.subject.keywordVideo summaryel
dc.subject.keywordMachine learningel
dc.subject.keywordTransformersel
dc.date.defense2023-12-08


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»