Αυτόματη περιγραφή οπτικοακουστικών σκηνών με χρήση βαθέων νευρωνικών δικτύων

Βαρτιάν, Ασαντούρ

dc.contributor.advisor	Πικράκης, Άγγελος
dc.contributor.author	Βαρτιάν, Ασαντούρ
dc.date.accessioned	2024-02-13T08:14:28Z
dc.date.available	2024-02-13T08:14:28Z
dc.date.issued	2023-12
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/16169
dc.identifier.uri	http://dx.doi.org/10.26267/unipi_dione/3591
dc.description.abstract	Η Μηχανική Μάθηση είναι ένα ταχέως αναπτυσσόμενο πεδίο της πληροφορικής, ικανό να παρέχει λύσεις σε απαιτητικά προβλήματα αυξανόμενης πολυπλοκότητας. Στο πλαίσιο αυτό, ο στόχος αυτής της διατριβής είναι να οικοδομηθεί ένα σύστημα με σκοπό την αυτόματη περιγραφή της σκηνής βίντεο χρησιμοποιώντας μια αλληλουχία συνδυαστικών μοντέλων μηχανικής μάθησης. Για το σκοπό αυτό, ένα σήμα βίντεο αντιμετωπίζεται ως μια ακολουθία εικόνων και κάθε εικόνα τροφοδοτείται ως είσοδος σε μια αρχιτεκτονική CLIP που αυτή τελικά παράγει μια περιγραφή εικόνας. Το CLIP είναι ένα embedding ανοιχτού κώδικα εκπαιδευμένο να συσχετίζει την εικόνα με το κείμενο. Σε επόμενο βήμα, η ακολουθία των παραγόμενων περιγραφών συνενώνεται και δίνεται ως είσοδος σε ένα μοντέλο μετασχηματιστή που παράγει την τελική περιγραφή της σκηνής του βίντεο. Προκειμένου να επιτύχουμε καλύτερα αποτελέσματα σε αυτό το δεύτερο στάδιο επεξεργασίας, επανεκπαιδεύσαμε και βελτιστοποιήσαμε τα μοντέλα μετασχηματιστών τους BART και Pegasus χρησιμοποιώντας το Σύνολο Δεδομένων LSMDC (Large Scale Movie Description Challenge Dataset). Η απόδοση του προτεινόμενου συστήματος αξιολογήθηκε χρησιμοποιώντας διάφορες καθιερωμένες μετρικές.	el
dc.format.extent	38	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Αυτόματη περιγραφή οπτικοακουστικών σκηνών με χρήση βαθέων νευρωνικών δικτύων	el
dc.title.alternative	Automatic description of audiovisual scenes using deep neural networks	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής	el
dc.description.abstractEN	Machine Learning is a rapidly growing field of informatics, capable of providing solutions to demanding problems of increasing complexity. In that context, the goal of this thesis is to build a system for the purposed of automatic video scene description using machine learning pipeline. To this end, a video signal is treated as a sequence of images and each image is fed as input to a CLIP architecture which generated an image description. CLIP is an open-source embedding trained to associate image with text. At a next step, the sequence of generated descriptions is concatenated and it is given as input to a transformer model which produces the final description of the video scene. In order to obtain better results at this second processing stage, we re-trained and fine-tuned the BART and Pegasus transformer models using the Large Scale Movie Description Challenge Dataset (LSMDC). The performance of the the proposed pipeline was assessed using various established metrics.	el
dc.contributor.master	Κυβερνοασφάλεια και Επιστήμη Δεδομένων	el
dc.subject.keyword	CLIP	el
dc.subject.keyword	Video summary	el
dc.subject.keyword	Machine learning	el
dc.subject.keyword	Transformers	el
dc.date.defense	2023-12-08

Αρχεία σε αυτό το τεκμήριο

Name:: Vartian_21003.pdf
Μέγεθος:: 1.156Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Πληροφορικής
Department of Informatics

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα