Multimodal pretraining for music audio
Πολυμεσική προεκπαίδευση για μουσικά τραγούδια
Master Thesis
Συγγραφέας
Sideras, Andreas
Σιδεράς, Ανδρέας
Ημερομηνία
2024-07Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Multimodal ; Audio ; Pretraining ; Music ; Finetuning ; Metric learningΠερίληψη
Τα δεδομένα μπορούν να αποτυπώνονται σε διάφορες μορφές και μέσα. Για παράδειγμα, θα
μπορούσαμε να συναντήσουμε δεδομένα ήχου που συνοδεύονται από κείμενα αναφορικά με
τους στίχους τους. Τα σύγχρονα συστήματα εκμεταλλεύονται, όταν είναι διαθέσιμες, τις
πολλαπλές πηγές πληροφοριών και αυξάνουν την απόδοσή τους. Σε αυτές τις περιπτώσεις,
κάθε μέσο αποτυπώνει μια διαφορετική σημασιολογική διάσταση των δεδομένων. Πέρα από
τη πολυμεσική τους φύση, το πλήθος των δεδομένων μπορεί να είναι περιορισμένο και να
έχουμε έλλειψη επισημειώσεων για αυτά. Τεχνικές όπως η μεταφορά γνώσης και η
προεκπαίδευση συχνά βοηθούν σε αυτές τις συνθήκες. Στην διπλωματική αυτή ερευνούμε
διάφορους τρόπους προεκπαίδευσης ενός μοντέλου με σκοπό τη βελτιστοποίηση της
απόδοση σε ένα διαδοχικό πρόβλημα για το οποίο έχουμε λίγα δεδομένα και επισημειώσεις.
Ο στόχος μας είναι να εκπαιδεύσουμε ένα μοντέλο, το οποίο είναι ικανό να εξάγει χρήσιμα
χαρακτηριστικά και να χρησιμοποιηθεί σε οποιοδήποτε διαδοχικό πρόβλημα.
Χρησιμοποιούμε ένα Μεγάλο Γλωσσικό Μοντέλο (ΜΓΜ) ώστε να εξάγουμε προτάσεις που
σχολιάζουν το συναίσθημα και το θέμα των στίχων σε έναν σύνολο μη επισημειωμένων
μουσικών τραγουδιών. Κατά τη διάρκεια της προεκπαίδευσης μαθαίνουμε έναν χώρο στον
οποίο συσχετίζουμε το ηχητικό σήμα με τα κείμενα των σχολιασμών. Στη συνέχεια
εκπαιδεύουμε το μοντέλο στο επισημειωμένο σύνολο δεδομένων, όπου το μοντέλο δέχεται
σαν είσοδο μόνο το ηχητικό σήμα. Υπογραμμίζουμε τη σημαντική αύξηση στην απόδοση του
διαδοχικού προβλήματος, ειδικά σε συνθήκες όπου ελάχιστα δεδομένα είναι διαθέσιμα, τη
χρήση των ΜΓΜ στο βήμα της προεκπαίδευσης και τη σημασία του να εισάγουμε
πληροφορία αποτυπωμένη σε διαφορετικά μέσα.