Automatic music captioning
Αυτόματη περιγραφή μουσικής

Master Thesis
Συγγραφέας
Rentoula, Vasiliki
Ρέντουλα, Βασιλική
Ημερομηνία
2025-05Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Music captioning ; Music tagging ; Transformers ; Deep learningΠερίληψη
Αυτή η εργασία επικεντρώνεται στην εφαρμογή τεχνικών Βαθιάς Μάθησης (Deep Learning) για την Αυτόματη Περιγραφή Ήχου (Automatic Audio Captioning), με ιδιαίτερη έμφαση στη μουσική. Συγκεκριμένα, η μελέτη αυτή αναπαράγει και αξιολογεί σύγχρονα μοντέλα περιγραφής μουσικής που βασίζονται σε μοντέλα ακολουθίας προς ακολουθία (sequence to sequence), ακολουθώντας κατευθύνσεις από τις προκλήσεις του DCASE 2023 Task 6A. Επιπλέον, διερευνώνται τεχνικές αυτοεποπτευόμενης μάθησης (self-supervised learning), χρησιμοποιώντας αυτοκωδικοποιητές βασισμένους σε συνελικτικά (convolutional) και μετασχηματιστικά (transformer-based) δίκτυα, όπου οι προσχηματισμένες (pretrained) μάσκες ηχητικών αναπαραστάσεων—που έχουν μάθει να προβλέπουν τα απούσες περιοχές του ηχητικού σήματος—μεταφέρονται στο μοντέλο περιγραφής.
Για την περαιτέρω ενίσχυση της απόδοσης του μοντέλου, εξερευνήθηκαν διάφορες στρατηγικές μάσκας, όπως μη δομημένη (unstructured), χρονική (time), συχνοτική (frequency) και συνδυαστική χρονικο-συχνοτική (time-frequency masking), με σκοπό την αξιολόγηση της επίδρασής τους στην ποιότητα της περιγραφής. Η μελέτη εξετάζει επίσης τον ρόλο της ετικετοποίησης μουσικής (music tagging), αξιολογώντας πώς οι ετικέτες είδους (genre) και οργάνων (instrument labels) επηρεάζουν τη δημιουργία των περιγραφών.
Μέσω συγκριτικής ανάλυσης διαφορετικών ρυθμίσεων εκπαίδευσης, αξιολογείται η αποτελεσματικότητα των προσχηματισμένων σε σχέση με τους τυχαία αρχικοποιημένους αποκωδικοποιητές (encoders), χρησιμοποιώντας πολλαπλά σύνολα δεδομένων. Με την επίτευξη αυτών των στόχων, η έρευνα αποσκοπεί στη συμβολή στην ανάπτυξη βελτιωμένων περιγραφών μουσικών αποσπασμάτων. Ο κώδικας είναι διαθέσιμος στο: https://github.com/CuteQuacky/Thesis_Music_Captioning.