Τεχνικές βαθιάς μηχανικής μάθησης για αναγνώριση μουσικού συναισθήματος

Γερουλάνος, Άγγελος; Geroulanos, Angelos

dc.contributor.advisor	Γιαννακόπουλος, Θεόδωρος
dc.contributor.advisor	Giannakopoulos, Theodoros
dc.contributor.author	Γερουλάνος, Άγγελος
dc.contributor.author	Geroulanos, Angelos
dc.date.accessioned	2021-07-06T07:19:32Z
dc.date.available	2021-07-06T07:19:32Z
dc.date.issued	2021-06
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/13540
dc.identifier.uri	http://dx.doi.org/10.26267/unipi_dione/963
dc.description.abstract	Η μουσική είναι φορέας πολλών και ισχυρών συναισθημάτων. Με την ανάπτυξη της τεχνολογίας και του διαδικτύου η πρόσβαση σε τεράστιου όγκου μουσικό περιεχόμενο είναι άμεση σχεδόν από οπουδήποτε. Παρόλη τη διαθεσιμότητα, η επιλογή μουσικής βάσει συναισθηματικής κατάστασης του ακροατή είναι αρκετά δύσκολη υπόθεση. Η παρούσα εργασία διερευνά μέσω τεχνικών βαθιάς μηχανικής μάθησης την ικανότητα γνωστών αρχιτεκτονικών CNNs (VGG, AlexNet, DenseNet, Inception, ResNeXt, SqueezeNet) στην αναγνώριση μουσικού συναισθήματος σε συνθήκες έλλειψης δεδομένων, με σετ διαφορετικής προέλευσης και όχι πάντοτε ισορροπημένων. Οι τεχνικές που χρησιμοποιούνται είναι η Μεταφορά Μάθησης και η επαύξηση δεδομένων μέσω Παραγωγικών Ανταγωνιστικών Δικτύων (GANs). Πριν από αυτό όμως, με κλασική μηχανική μάθηση πραγματοποιείται εξαγωγή χειροποίητων χαρακτηριστικών όλων των ηχητικών δειγμάτων και ταξινόμηση με γνωστούς ταξινομητές (SVM, K-NN, Random Forest, Extra Trees) προκειμένου να υπάρχει σημείο αναφοράς για τα συγκεντρωτικά αποτελέσματα. Έτσι, τα δείγματα μετατρέπονται σε Mel-spectrograms για να γίνουν είσοδοι στα συνελικτικά δίκτυα τα οποία εκπαιδεύονται με δύο σενάρια Μεταφοράς Μάθησης και δίνουν μοντέλα που δοκιμάζονται σε πειράματα ταξινόμησης συναισθημάτων. Τέλος, με χρήση του StyleGAN2-ADA γίνεται επαύξηση δεδομένων και δημιουργείται ένα νέο τεχνητό σετ που και αυτό με τη σειρά του δοκιμάζεται σε ταξινομήσεις. Σημείο αναφοράς των πειραμάτων είναι το 360-set της έρευνας των Eerola & Vuoskoski πλήρως ετικετοποιημένο από ειδικούς στον τομέα της μουσικής, γεγονός που το καθιστά αρκετά σπάνιο. Αποτελείται από 360 αποσπάσματα κινηματογραφικής μουσικής διάρκειας 15’’-30’’, διαχωρισμένα σε Energy (high, medium, low), Valence (positive, neutral, negative), Tension (high, medium, low) και Emotions (anger, fear, happy, sad, tender). Από όσο μπορούμε να γνωρίζουμε η παρούσα είναι η πρώτη εργασία που πραγματοποιεί τόσο εκτεταμένα πειράματα στο συγκεκριμένο σετ.	el
dc.format.extent	133	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Τεχνικές βαθιάς μηχανικής μάθησης για αναγνώριση μουσικού συναισθήματος	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	Music is a carrier of many and strong emotions. With the development of technology and the Internet, access to a huge amount of music content is instantaneous from almost anywhere. Despite the availability, choosing music based on the listener's emotion state is quite a difficult task. This work investigates the ability of well-known CNN architectures (VGG, AlexNet, DenseNet, Inception, ResNeXt, SqueezeNet) to recognize musical emotion when data is limited, with training sets of different distributions and not always balanced. We used Deep Learning techniques such as Transfer Learning and Data Augmentation with Generative Adversarial Networks (GANs). Using “classic” machine learning, handcrafted features of all audio samples were extracted and classifiers were trained (SVM, K-NN, Random Forest, Extra Trees) in order to have a reference point for the results. Then, the samples were converted to Mel-spectrograms as inputs to CNNs which were trained running two Transfer Learning scenarios and gave models that were tested in emotion classification experiments. Finally, using StyleGAN2-ADA, we did data augmentation and a new artificial set was created, and also tested in classification tasks. As ground truth for the experiments, we used the 360-set of Eerola & Vuoskoski's research fully labeled by music experts, which makes it a quite rare set. It consists of 360 soundtrack excerpts from 15'' to 30'' duration, classified into Energy (high, medium, low), Valence (positive, neutral, negative), Tension (high, medium, low) and Emotions (anger, fear, happy, sad, tender). As far as we know, this is the first work that carries out such extensive experiments in this set.	el
dc.corporate.name	Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών του ΕΚΕΦΕ «Δημόκριτος»	el
dc.contributor.master	Τεχνητή Νοημοσύνη - Artificial Intelligence	el
dc.subject.keyword	Βαθιά μηχανική μάθηση	el
dc.subject.keyword	Μεταφορά μάθησης	el
dc.subject.keyword	Επαύξηση δεδομένων	el
dc.subject.keyword	StyleGAN2-ADA	el
dc.subject.keyword	Συνελικτικά νευρωνικά δίκτυα	el
dc.subject.keyword	Ταξινόμηση συναισθήματος	el
dc.subject.keyword	DL	el
dc.subject.keyword	CNN	el
dc.subject.keyword	Transfer learning	el
dc.subject.keyword	Music emotion recognition	el
dc.subject.keyword	AI	el
dc.date.defense	2021-06-30

Αρχεία σε αυτό το τεκμήριο

Name:: Geroulanos_mtn1904.pdf
Μέγεθος:: 5.303Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα