Deep generation of electronic music

Μανουρά, Δήμητρα

dc.contributor.advisor	Γιαννακόπουλος, Θεόδωρος
dc.contributor.author	Μανουρά, Δήμητρα
dc.date.accessioned	2025-02-19T10:15:39Z
dc.date.available	2025-02-19T10:15:39Z
dc.date.issued	2024
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/17484
dc.description.abstract	Ο στόχος αυτής της διπλωματικής εργασίας είναι η διερεύνηση της δημιουργίας ηλεκτρονικής μουσικής με τη χρήση τεχνικών Βαθιάς Μάθησης. Η αλγοριθμική δημιουργία μουσικής αποτελεί μια ιδιαίτερη πρόκληση, καθώς απαιτεί τη σύνθεση αυθεντικών και αισθητικά ευχάριστων έργων που να αγγίζουν συναισθηματικά τους ακροατές. Η μουσική είναι άρρηκτα συνδεδεμένη με την ανθρώπινη εμπειρία, το συναίσθημα και τον πολιτισμό, στοιχεία που οι αλγόριθμοι αδυνατούν να κατανοήσουν πλήρως. Αυτή η εργασία επιχειρεί να γεφυρώσει το χάσμα ανάμεσα στην τεχνολογία και την τέχνη, προσφέροντας στους μουσικούς εργαλεία που τους επιτρέπουν να ανακαλύψουν νέες μορφές έκφρασης και να ενισχύσουν τη δημιουργικότητά τους. Επιδιώκοντας την ισορροπία ανάμεσα στην τεχνολογία και τον ανθρώπινο παράγοντα, στόχος είναι να εμπλουτιστεί η μουσική καινοτομία και να γεννηθούν νέες ιδέες. Για να επιτευχθεί αυτό, δημιουργήσαμε ένα δικό μας σύνολο δεδομένων, το οποίο αποτελείται από εικόνες που αναπαριστούν την αρχική μουσική. Αυτές οι εικόνες, γνωστές ως φασματογραφήματα, είναι δισδιάστατες απεικονίσεις ήχου, ουσιαστικά γραφικές παραστάσεις όπου ο οριζόντιος άξονας δείχνει τον χρόνο και ο κάθετος τη συχνότητα. Για την αντιμετώπιση αυτής της πρόκλησης, επιλέξαμε να χρησιμοποιήσουμε Παραγωγικά Αντιπαραθετικά Δίκτυα (ΠΑΔ, GANs) ως βασική μεθοδολογία. Τα GANs, μια ιδιαίτερη κατηγορία αλγορίθμων βαθιάς μάθησης, έχουν αποδειχθεί εξαιρετικά αποτελεσματικά στη δημιουργία ρεαλιστικών εικόνων και, κατ' επέκταση, φασματογραφημάτων. Η προσέγγισή μας βασίζεται στην εκπαίδευση Βαθιών Συνελικτικών Παραγωγικών Αντιπαραθετικών Δικτύων (DCGANs) σε αυτό το σύνολο δεδομένων, ώστε να κατανοήσουν τα μοτίβα και τις δομές που χαρακτηρίζουν την ηλεκτρονική μουσική. Τα GANs αποτελούνται από δύο δίκτυα: τον Γεννήτορα (Generator), ο οποίος παράγει «ψεύτικες» εικόνες, και τον Διαχωριστή (Discriminator), ο οποίος διακρίνει ανάμεσα στις «αληθινές» και τις «ψεύτικες». Αυτά τα δύο δίκτυα εμπλέκονται σε ένα ανταγωνιστικό παίγνιο μηδενικού αθροίσματος, γνωστό ως minimax στη θεωρία παιγνίων, με αποτέλεσμα τη σταδιακή βελτίωση και των δύο. Καθώς ο Γεννήτορας προσπαθεί να ξεγελάσει τον Διαχωριστή και ο Διαχωριστής να μην ξεγελαστεί, το σύστημα παράγει ολοένα και πιο ρεαλιστικές εικόνες. Η μεθοδολογία μας εστιάζει στην εκπαίδευση και βελτιστοποίηση των DCGANs, όπου τόσο ο Γεννήτορας όσο και ο Διαχωριστής χρησιμοποιούν συνελικτικά επίπεδα στην αρχιτεκτονική τους. Μετά τη δημιουργία των φασματογραφημάτων, αυτά μετατρέπονται ξανά σε ήχο, που αποτελεί και τον τελικό μας στόχο. Για να αξιολογηθεί η ρεαλιστικότητα του παραγόμενου ήχου, σχεδιάστηκε ένα ερωτηματολόγιο, στο οποίο οι συμμετέχοντες κλήθηκαν να αναγνωρίσουν ποιο από τα κομμάτια που άκουσαν είχε δημιουργηθεί από τεχνητή νοημοσύνη. Συνοψίζοντας, η παρούσα διπλωματική εργασία αναδεικνύει τις δυνατότητες των DCGANs στη δημιουργία ηλεκτρονικής μουσικής. Παρά τους περιορισμούς που ενδέχεται να παρουσιάζουν τα GANs, τα πειραματικά μας αποτελέσματα δείχνουν ότι τα μοντέλα που αναπτύξαμε κατάφεραν να παράξουν μουσική που προσεγγίζει σε μεγάλο βαθμό τις αρχικές συνθέσεις του συνόλου δεδομένων μας, δημιουργώντας έναν ρεαλιστικό ήχο.	el
dc.format.extent	74	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Deep generation of electronic music	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	Τhe goal of this thesis is to explore the generation of electronic music through the utilization of Deep Learning techniques. The challenge of algorithmically generating music lies in creating authentic and aesthetically pleasing compositions that resonate with listeners. Music is deeply human, rooted in emotion and culture, while algorithms lack this understanding. This project aims to bridge technology and art by providing musicians with tools to explore new expressions and spark creativity. By finding a balance between technology and human emotion, it seeks to enrich musical innovation and inspire new compositions. To do that, the path we have chosen is by making our own dataset which consists of images that represent the original music. These images are called spectrograms and they are a 2D representation of a sound, essentially a graph, where the horizontal axis represents time and the vertical axis represents frequency. To address this challenge, Generative Adversarial Networks (GANs) are employed as the modeling approach. GANs are a class of deep learning algorithms that have shown promise in generating realistic images and, by extension, spectrograms. The methodology involves training DCGANs on the dataset of spectrograms to learn the underlying patterns and structures of electronic music. Generative Adversarial Networks (GANs) consist of two networks, the Generator and the Discriminator, engaged in a competitive, zero-sum game. Known as minimax in game theory, each network aims to outperform the other: the Generator generates "fake" images, while the Discriminator discerns between "real" and "fake" ones. As the Generator seeks to deceive the Discriminator and the Discriminator tries not to be fooled, both networks improve, resulting in the generation of increasingly realistic images. The methods under examination revolve around the training and optimization of Deep Convolutional Generative Adversarial Networks (DCGANs), which are essentially GANs whose both the Generator and the Discriminator have Convolutional layers in their architectures. These spectrograms are then converted back into audio, which was the goal all along. To evaluate how realistic the generated sound is, a questionnaire was distributed for people to answer, where participants are asked to find which one of the songs they heard is AI-generated. In conclusion, this thesis showcases the potential of DCGANs in the domain of electronic music generation. Despite the inherent limitations that GANs can have, our experimental results demonstrate that our models successfully generated music closely resembling the compositions in our dataset, achieving a realistic sound output.	el
dc.corporate.name	Εθνικό Κέντρο Έρευνας Φυσικών Επιστημών «Δημόκριτος»	el
dc.contributor.master	Τεχνητή Νοημοσύνη - Artificial Intelligence	el
dc.subject.keyword	GAN	el
dc.subject.keyword	Generative Adversarial Network	el
dc.subject.keyword	AI	el
dc.subject.keyword	Deep learning	el
dc.subject.keyword	Music generation	el
dc.date.defense	2024-03-06

Αρχεία σε αυτό το τεκμήριο

Name:: Deep_Generation_of_electronic_ ...
Μέγεθος:: 4.796Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα