Show simple item record

dc.contributor.advisorΓιαννακόπουλος, Θεόδωρος
dc.contributor.advisorGiannakopoulos, Theodoros
dc.contributor.authorΓερουλάνος, Άγγελος
dc.contributor.authorGeroulanos, Angelos
dc.date.accessioned2021-07-06T07:19:32Z
dc.date.available2021-07-06T07:19:32Z
dc.date.issued2021-06
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/13540
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/963
dc.description.abstractΗ μουσική είναι φορέας πολλών και ισχυρών συναισθημάτων. Με την ανάπτυξη της τεχνολογίας και του διαδικτύου η πρόσβαση σε τεράστιου όγκου μουσικό περιεχόμενο είναι άμεση σχεδόν από οπουδήποτε. Παρόλη τη διαθεσιμότητα, η επιλογή μουσικής βάσει συναισθηματικής κατάστασης του ακροατή είναι αρκετά δύσκολη υπόθεση. Η παρούσα εργασία διερευνά μέσω τεχνικών βαθιάς μηχανικής μάθησης την ικανότητα γνωστών αρχιτεκτονικών CNNs (VGG, AlexNet, DenseNet, Inception, ResNeXt, SqueezeNet) στην αναγνώριση μουσικού συναισθήματος σε συνθήκες έλλειψης δεδομένων, με σετ διαφορετικής προέλευσης και όχι πάντοτε ισορροπημένων. Οι τεχνικές που χρησιμοποιούνται είναι η Μεταφορά Μάθησης και η επαύξηση δεδομένων μέσω Παραγωγικών Ανταγωνιστικών Δικτύων (GANs). Πριν από αυτό όμως, με κλασική μηχανική μάθηση πραγματοποιείται εξαγωγή χειροποίητων χαρακτηριστικών όλων των ηχητικών δειγμάτων και ταξινόμηση με γνωστούς ταξινομητές (SVM, K-NN, Random Forest, Extra Trees) προκειμένου να υπάρχει σημείο αναφοράς για τα συγκεντρωτικά αποτελέσματα. Έτσι, τα δείγματα μετατρέπονται σε Mel-spectrograms για να γίνουν είσοδοι στα συνελικτικά δίκτυα τα οποία εκπαιδεύονται με δύο σενάρια Μεταφοράς Μάθησης και δίνουν μοντέλα που δοκιμάζονται σε πειράματα ταξινόμησης συναισθημάτων. Τέλος, με χρήση του StyleGAN2-ADA γίνεται επαύξηση δεδομένων και δημιουργείται ένα νέο τεχνητό σετ που και αυτό με τη σειρά του δοκιμάζεται σε ταξινομήσεις. Σημείο αναφοράς των πειραμάτων είναι το 360-set της έρευνας των Eerola & Vuoskoski πλήρως ετικετοποιημένο από ειδικούς στον τομέα της μουσικής, γεγονός που το καθιστά αρκετά σπάνιο. Αποτελείται από 360 αποσπάσματα κινηματογραφικής μουσικής διάρκειας 15’’-30’’, διαχωρισμένα σε Energy (high, medium, low), Valence (positive, neutral, negative), Tension (high, medium, low) και Emotions (anger, fear, happy, sad, tender). Από όσο μπορούμε να γνωρίζουμε η παρούσα είναι η πρώτη εργασία που πραγματοποιεί τόσο εκτεταμένα πειράματα στο συγκεκριμένο σετ.el
dc.format.extent133el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleΤεχνικές βαθιάς μηχανικής μάθησης για αναγνώριση μουσικού συναισθήματοςel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENMusic is a carrier of many and strong emotions. With the development of technology and the Internet, access to a huge amount of music content is instantaneous from almost anywhere. Despite the availability, choosing music based on the listener's emotion state is quite a difficult task. This work investigates the ability of well-known CNN architectures (VGG, AlexNet, DenseNet, Inception, ResNeXt, SqueezeNet) to recognize musical emotion when data is limited, with training sets of different distributions and not always balanced. We used Deep Learning techniques such as Transfer Learning and Data Augmentation with Generative Adversarial Networks (GANs). Using “classic” machine learning, handcrafted features of all audio samples were extracted and classifiers were trained (SVM, K-NN, Random Forest, Extra Trees) in order to have a reference point for the results. Then, the samples were converted to Mel-spectrograms as inputs to CNNs which were trained running two Transfer Learning scenarios and gave models that were tested in emotion classification experiments. Finally, using StyleGAN2-ADA, we did data augmentation and a new artificial set was created, and also tested in classification tasks. As ground truth for the experiments, we used the 360-set of Eerola & Vuoskoski's research fully labeled by music experts, which makes it a quite rare set. It consists of 360 soundtrack excerpts from 15'' to 30'' duration, classified into Energy (high, medium, low), Valence (positive, neutral, negative), Tension (high, medium, low) and Emotions (anger, fear, happy, sad, tender). As far as we know, this is the first work that carries out such extensive experiments in this set.el
dc.corporate.nameΙνστιτούτο Πληροφορικής και Τηλεπικοινωνιών του ΕΚΕΦΕ «Δημόκριτος»el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordΒαθιά μηχανική μάθησηel
dc.subject.keywordΜεταφορά μάθησηςel
dc.subject.keywordΕπαύξηση δεδομένωνel
dc.subject.keywordStyleGAN2-ADAel
dc.subject.keywordΣυνελικτικά νευρωνικά δίκτυαel
dc.subject.keywordΤαξινόμηση συναισθήματοςel
dc.subject.keywordDLel
dc.subject.keywordCNNel
dc.subject.keywordTransfer learningel
dc.subject.keywordMusic emotion recognitionel
dc.subject.keywordAIel
dc.date.defense2021-06-30


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Contact Us
Send Feedback
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»