Αυτόματη περιγραφή οπτικοακουστικών σκηνών με χρήση βαθέων νευρωνικών δικτύων

Βαρτιάν, Ασαντούρ

Automatic description of audiovisual scenes using deep neural networks

Master Thesis

Συγγραφέας

Βαρτιάν, Ασαντούρ

Ημερομηνία

2023-12

Περίληψη

Η Μηχανική Μάθηση είναι ένα ταχέως αναπτυσσόμενο πεδίο της πληροφορικής, ικανό να παρέχει λύσεις σε απαιτητικά προβλήματα αυξανόμενης πολυπλοκότητας. Στο πλαίσιο αυτό, ο στόχος αυτής της διατριβής είναι να οικοδομηθεί ένα σύστημα με σκοπό την αυτόματη περιγραφή της σκηνής βίντεο χρησιμοποιώντας μια αλληλουχία συνδυαστικών μοντέλων μηχανικής μάθησης. Για το σκοπό αυτό, ένα σήμα βίντεο αντιμετωπίζεται ως μια ακολουθία εικόνων και κάθε εικόνα τροφοδοτείται ως είσοδος σε μια αρχιτεκτονική CLIP που αυτή τελικά παράγει μια περιγραφή εικόνας. Το CLIP είναι ένα embedding ανοιχτού κώδικα εκπαιδευμένο να συσχετίζει την εικόνα με το κείμενο. Σε επόμενο βήμα, η ακολουθία των παραγόμενων περιγραφών συνενώνεται και δίνεται ως είσοδος σε ένα μοντέλο μετασχηματιστή που παράγει την τελική περιγραφή της σκηνής του βίντεο. Προκειμένου να επιτύχουμε καλύτερα αποτελέσματα σε αυτό το δεύτερο στάδιο επεξεργασίας, επανεκπαιδεύσαμε και βελτιστοποιήσαμε τα μοντέλα μετασχηματιστών τους BART και Pegasus χρησιμοποιώντας το Σύνολο Δεδομένων LSMDC (Large Scale Movie Description Challenge Dataset). Η απόδοση του προτεινόμενου συστήματος αξιολογήθηκε χρησιμοποιώντας διάφορες καθιερωμένες μετρικές.

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Κυβερνοασφάλεια και Επιστήμη Δεδομένων

Τμήμα

Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής

Αριθμός σελίδων

Γλώσσα

Ελληνικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/16169
http://dx.doi.org/10.26267/unipi_dione/3591

Συλλογή

Τμήμα Πληροφορικής

Εμφάνιση πλήρους εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα