Show simple item record

Multimodal pretraining for music audio

dc.contributor.advisorGiannakopoulos, Theodoros
dc.contributor.advisorΓιαννακόπουλος, Θεόδωρος
dc.contributor.authorSideras, Andreas
dc.contributor.authorΣιδεράς, Ανδρέας
dc.date.accessioned2024-09-03T06:32:19Z
dc.date.available2024-09-03T06:32:19Z
dc.date.issued2024-07
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/16697
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/4119
dc.description.abstractΤα δεδομένα μπορούν να αποτυπώνονται σε διάφορες μορφές και μέσα. Για παράδειγμα, θα μπορούσαμε να συναντήσουμε δεδομένα ήχου που συνοδεύονται από κείμενα αναφορικά με τους στίχους τους. Τα σύγχρονα συστήματα εκμεταλλεύονται, όταν είναι διαθέσιμες, τις πολλαπλές πηγές πληροφοριών και αυξάνουν την απόδοσή τους. Σε αυτές τις περιπτώσεις, κάθε μέσο αποτυπώνει μια διαφορετική σημασιολογική διάσταση των δεδομένων. Πέρα από τη πολυμεσική τους φύση, το πλήθος των δεδομένων μπορεί να είναι περιορισμένο και να έχουμε έλλειψη επισημειώσεων για αυτά. Τεχνικές όπως η μεταφορά γνώσης και η προεκπαίδευση συχνά βοηθούν σε αυτές τις συνθήκες. Στην διπλωματική αυτή ερευνούμε διάφορους τρόπους προεκπαίδευσης ενός μοντέλου με σκοπό τη βελτιστοποίηση της απόδοση σε ένα διαδοχικό πρόβλημα για το οποίο έχουμε λίγα δεδομένα και επισημειώσεις. Ο στόχος μας είναι να εκπαιδεύσουμε ένα μοντέλο, το οποίο είναι ικανό να εξάγει χρήσιμα χαρακτηριστικά και να χρησιμοποιηθεί σε οποιοδήποτε διαδοχικό πρόβλημα. Χρησιμοποιούμε ένα Μεγάλο Γλωσσικό Μοντέλο (ΜΓΜ) ώστε να εξάγουμε προτάσεις που σχολιάζουν το συναίσθημα και το θέμα των στίχων σε έναν σύνολο μη επισημειωμένων μουσικών τραγουδιών. Κατά τη διάρκεια της προεκπαίδευσης μαθαίνουμε έναν χώρο στον οποίο συσχετίζουμε το ηχητικό σήμα με τα κείμενα των σχολιασμών. Στη συνέχεια εκπαιδεύουμε το μοντέλο στο επισημειωμένο σύνολο δεδομένων, όπου το μοντέλο δέχεται σαν είσοδο μόνο το ηχητικό σήμα. Υπογραμμίζουμε τη σημαντική αύξηση στην απόδοση του διαδοχικού προβλήματος, ειδικά σε συνθήκες όπου ελάχιστα δεδομένα είναι διαθέσιμα, τη χρήση των ΜΓΜ στο βήμα της προεκπαίδευσης και τη σημασία του να εισάγουμε πληροφορία αποτυπωμένη σε διαφορετικά μέσα.el
dc.format.extent61el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/3.0/gr/*
dc.titleMultimodal pretraining for music audioel
dc.title.alternativeΠολυμεσική προεκπαίδευση για μουσικά τραγούδιαel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENData can be expressed in various forms, each potentially encoded through diverse means. For instance, we might encounter audio data paired with descriptive texts about their lyrics. Modern systems leverage, if available, the different sources of information and outperform, under certain conditions, their single-modal counterparts. In such multimodal settings, each modality encapsulates a distinct aspect of the underlying semantics of the data and has a supplementary role. Data can also be limited and without annotations related to the task at hand. In such cases, transfer learning and pretraining could be two techniques that enhance the performance of the models. In this thesis, we explore various unsupervised pretraining techniques while evaluating them on a supervised downstream task. Our goal is to train a model that can extract meaningful features and be further finetuned to any new task. We use LLMs to create pseudo-captions that describe the sentiment and the theme of the lyrics, from a large pool of non-annotated audio. We then perform a pretraining step, where we learn a multimodal coordinated space between the audio signals and these pseudo-captions. Then, we finetune our model on an annotated dataset, where only the audio modality is available. We highlight the ability of such models to deliver adequate performance in few-shot learning settings, the incorporation of LLMs into the pretraining step, and the importance of learning a shared semantic space for information originating from different modalities.el
dc.corporate.nameNational Center of Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordMultimodalel
dc.subject.keywordAudioel
dc.subject.keywordPretrainingel
dc.subject.keywordMusicel
dc.subject.keywordFinetuningel
dc.subject.keywordMetric learningel
dc.date.defense2024-07-15


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Contact Us
Send Feedback
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»