dc.contributor.advisor | Giannakopoulos, Theodoros | |
dc.contributor.advisor | Γιαννακόπουλος, Θεόδωρος | |
dc.contributor.author | Panopoulos, Sotirios | |
dc.contributor.author | Πανόπουλος, Σωτήριος | |
dc.date.accessioned | 2024-03-01T14:13:19Z | |
dc.date.available | 2024-03-01T14:13:19Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/16238 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/3660 | |
dc.description.abstract | Στον τομέα της σύνοψης βίντεο απαιτείται η αποτελεσματική διάκριση μεταξύ πληροφοριακών και μη πληροφοριακών τμημάτων βίντεο για τη δημιουργία συνοπτικών περιλήψεων που περικλείουν το ουσιαστικό τους περιεχόμενο. Χρησιμοποιώντας προηγμένες μεθόδους βαθιάς μάθησης για την εξαγωγή χαρακτηριστικών τόσο από δεδομένα ήχου όσο και από οπτικά δεδομένα, η μελέτη αυτή χρησιμοποιεί ένα ευρύ φάσμα βελτιστοποιημένων αλγορίθμων ταξινόμησης μαζί με νέους που βασίζονται σε LSTM, Attention-based και Transformers μοντέλα. Μια πρώιμη προσέγγιση σύντηξης ενσωματώνει τα οπτικοακουστικά δεδομένα για να ενισχύσει την ακρίβεια της ταξινόμησης. Παρά τις αξιοσημείωτες επιτυχίες, ιδίως με τα οπτικά δεδομένα, οι προκλήσεις στην εξαγωγή χαρακτηριστικών ήχου και ορισμένες επιδόσεις μοντέλων υποδεικνύουν τους τομείς για μελλοντική βελτίωση. Η διατριβή συμβάλλει στον τομέα καταδεικνύοντας τις δυνατότητες του συνδυασμού ακουστικών και οπτικών χαρακτηριστικών με τη χρήση τεχνικών βαθιάς μάθησης για τη δυαδική ταξινόμηση βίντεο, θέτοντας στέρεες βάσεις για την ανάπτυξη ακριβέστερων περιλήψεων βίντεο. | el |
dc.format.extent | 59 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.title | Video binary classification using deep learning techniques | el |
dc.title.alternative | Δυαδική ταξινόμηση βίντεο με χρήση τεχνικών βαθιάς μάθησης | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | In the video summarization domain it is needed to efficiently differentiate between
informative and non-informative video segments to create concise summaries that encapsulate essential content. Utilizing advanced deep learning methods for feature extraction
from both audio and visual data, the study employs a diverse array of optimized classification algorithms and novel LSTM, alongside Attention-based models and Transformers.
An early fusion approach integrates audio-visual data to enhance classification accuracy.
Despite notable successes, particularly with visual data, challenges in audio feature extraction and certain model performances indicate areas for future improvement. The
thesis contributes to the field by demonstrating the potential of combining aural and
visual features using deep learning techniques for video binary classification, setting a
solid groundwork for advancements in achieving more accurate video summarizations. | el |
dc.corporate.name | National Center of Scientific Research "Demokritos" | el |
dc.contributor.master | Τεχνητή Νοημοσύνη - Artificial Intelligence | el |
dc.subject.keyword | Video summarization | el |
dc.subject.keyword | Binary classification | el |
dc.subject.keyword | Audio feature extraction | el |
dc.subject.keyword | Visual feature extraction | el |
dc.subject.keyword | Deep learning | el |
dc.date.defense | 2024-02-09 | |