Εμφάνιση απλής εγγραφής

Automatic music captioning

dc.contributor.advisorGiannakopoulos, Theodoros
dc.contributor.advisorΓιαννακόπουλος, Θεόδωρος
dc.contributor.authorRentoula, Vasiliki
dc.contributor.authorΡέντουλα, Βασιλική
dc.date.accessioned2025-06-03T06:14:50Z
dc.date.available2025-06-03T06:14:50Z
dc.date.issued2025-05
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/17816
dc.description.abstractΑυτή η εργασία επικεντρώνεται στην εφαρμογή τεχνικών Βαθιάς Μάθησης (Deep Learning) για την Αυτόματη Περιγραφή Ήχου (Automatic Audio Captioning), με ιδιαίτερη έμφαση στη μουσική. Συγκεκριμένα, η μελέτη αυτή αναπαράγει και αξιολογεί σύγχρονα μοντέλα περιγραφής μουσικής που βασίζονται σε μοντέλα ακολουθίας προς ακολουθία (sequence to sequence), ακολουθώντας κατευθύνσεις από τις προκλήσεις του DCASE 2023 Task 6A. Επιπλέον, διερευνώνται τεχνικές αυτοεποπτευόμενης μάθησης (self-supervised learning), χρησιμοποιώντας αυτοκωδικοποιητές βασισμένους σε συνελικτικά (convolutional) και μετασχηματιστικά (transformer-based) δίκτυα, όπου οι προσχηματισμένες (pretrained) μάσκες ηχητικών αναπαραστάσεων—που έχουν μάθει να προβλέπουν τα απούσες περιοχές του ηχητικού σήματος—μεταφέρονται στο μοντέλο περιγραφής. Για την περαιτέρω ενίσχυση της απόδοσης του μοντέλου, εξερευνήθηκαν διάφορες στρατηγικές μάσκας, όπως μη δομημένη (unstructured), χρονική (time), συχνοτική (frequency) και συνδυαστική χρονικο-συχνοτική (time-frequency masking), με σκοπό την αξιολόγηση της επίδρασής τους στην ποιότητα της περιγραφής. Η μελέτη εξετάζει επίσης τον ρόλο της ετικετοποίησης μουσικής (music tagging), αξιολογώντας πώς οι ετικέτες είδους (genre) και οργάνων (instrument labels) επηρεάζουν τη δημιουργία των περιγραφών. Μέσω συγκριτικής ανάλυσης διαφορετικών ρυθμίσεων εκπαίδευσης, αξιολογείται η αποτελεσματικότητα των προσχηματισμένων σε σχέση με τους τυχαία αρχικοποιημένους αποκωδικοποιητές (encoders), χρησιμοποιώντας πολλαπλά σύνολα δεδομένων. Με την επίτευξη αυτών των στόχων, η έρευνα αποσκοπεί στη συμβολή στην ανάπτυξη βελτιωμένων περιγραφών μουσικών αποσπασμάτων. Ο κώδικας είναι διαθέσιμος στο: https://github.com/CuteQuacky/Thesis_Music_Captioning.el
dc.format.extent73el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleAutomatic music captioningel
dc.title.alternativeΑυτόματη περιγραφή μουσικήςel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENThis work focuses on the application of Deep Learning techniques for Automatic Audio Captioning, particularly focusing on music. Specifically, this study reproduces and benchmarks state-of-the-art music captioning models that integrate sequence to sequence models, following insights from the DCASE 2023 Task 6A challenges. Additionally, it investigates self-supervised learning techniques using convolutional and transformer-based autoencoders, where pretrained masked audio representations—learned by predicting missing parts of audio signals—are transferred to the captioning model. To further enhance model performance, various masking strategies, such as unstructured, time, frequency, and combined time-frequency masking, were explored to evaluate their impact on caption quality. The study also examines the role of music tagging, evaluating how genre and instrument labels affects the caption generation. Through a comparative analysis of training configurations, the effectiveness of pretrained versus randomly initialized encoders is assessed using the multiple datasets. By addressing these objectives, this research aims to contribute to the development of improved music description captions. Also, the code is available at https://github. com/CuteQuacky/Thesis_Music_Captioningel
dc.corporate.nameNational Center of Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordMusic captioningel
dc.subject.keywordMusic taggingel
dc.subject.keywordTransformersel
dc.subject.keywordDeep learningel
dc.date.defense2025-05-27


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»