dc.contributor.advisor | Γιαννακόπουλος, Θεόδωρος | |
dc.contributor.author | Μανουρά, Δήμητρα | |
dc.date.accessioned | 2025-02-19T10:15:39Z | |
dc.date.available | 2025-02-19T10:15:39Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/17484 | |
dc.description.abstract | Ο στόχος αυτής της διπλωματικής εργασίας είναι η διερεύνηση της δημιουργίας ηλεκτρονικής μουσικής με τη χρήση τεχνικών Βαθιάς Μάθησης.
Η αλγοριθμική δημιουργία μουσικής αποτελεί μια ιδιαίτερη πρόκληση, καθώς απαιτεί τη σύνθεση αυθεντικών και αισθητικά ευχάριστων έργων που να αγγίζουν συναισθηματικά τους ακροατές. Η μουσική είναι άρρηκτα συνδεδεμένη με την ανθρώπινη εμπειρία, το συναίσθημα και τον πολιτισμό, στοιχεία που οι αλγόριθμοι αδυνατούν να κατανοήσουν πλήρως. Αυτή η εργασία επιχειρεί να γεφυρώσει το χάσμα ανάμεσα στην τεχνολογία και την τέχνη, προσφέροντας στους μουσικούς εργαλεία που τους επιτρέπουν να ανακαλύψουν νέες μορφές έκφρασης και να ενισχύσουν τη δημιουργικότητά τους. Επιδιώκοντας την ισορροπία ανάμεσα στην τεχνολογία και τον ανθρώπινο παράγοντα, στόχος είναι να εμπλουτιστεί η μουσική καινοτομία και να γεννηθούν νέες ιδέες.
Για να επιτευχθεί αυτό, δημιουργήσαμε ένα δικό μας σύνολο δεδομένων, το οποίο αποτελείται από εικόνες που αναπαριστούν την αρχική μουσική. Αυτές οι εικόνες, γνωστές ως φασματογραφήματα, είναι δισδιάστατες απεικονίσεις ήχου, ουσιαστικά γραφικές παραστάσεις όπου ο οριζόντιος άξονας δείχνει τον χρόνο και ο κάθετος τη συχνότητα. Για την αντιμετώπιση αυτής της πρόκλησης, επιλέξαμε να χρησιμοποιήσουμε Παραγωγικά Αντιπαραθετικά Δίκτυα (ΠΑΔ, GANs) ως βασική μεθοδολογία. Τα GANs, μια ιδιαίτερη κατηγορία αλγορίθμων βαθιάς μάθησης, έχουν αποδειχθεί εξαιρετικά αποτελεσματικά στη δημιουργία ρεαλιστικών εικόνων και, κατ' επέκταση, φασματογραφημάτων.
Η προσέγγισή μας βασίζεται στην εκπαίδευση Βαθιών Συνελικτικών Παραγωγικών Αντιπαραθετικών Δικτύων (DCGANs) σε αυτό το σύνολο δεδομένων, ώστε να κατανοήσουν τα μοτίβα και τις δομές που χαρακτηρίζουν την ηλεκτρονική μουσική. Τα GANs αποτελούνται από δύο δίκτυα: τον Γεννήτορα (Generator), ο οποίος παράγει «ψεύτικες» εικόνες, και τον Διαχωριστή (Discriminator), ο οποίος διακρίνει ανάμεσα στις «αληθινές» και τις «ψεύτικες». Αυτά τα δύο δίκτυα εμπλέκονται σε ένα ανταγωνιστικό παίγνιο μηδενικού αθροίσματος, γνωστό ως minimax στη θεωρία παιγνίων, με αποτέλεσμα τη σταδιακή βελτίωση και των δύο. Καθώς ο Γεννήτορας προσπαθεί να ξεγελάσει τον Διαχωριστή και ο Διαχωριστής να μην ξεγελαστεί, το σύστημα παράγει ολοένα και πιο ρεαλιστικές εικόνες.
Η μεθοδολογία μας εστιάζει στην εκπαίδευση και βελτιστοποίηση των DCGANs, όπου τόσο ο Γεννήτορας όσο και ο Διαχωριστής χρησιμοποιούν συνελικτικά επίπεδα στην αρχιτεκτονική τους. Μετά τη δημιουργία των φασματογραφημάτων, αυτά μετατρέπονται ξανά σε ήχο, που αποτελεί και τον τελικό μας στόχο. Για να αξιολογηθεί η ρεαλιστικότητα του παραγόμενου ήχου, σχεδιάστηκε ένα ερωτηματολόγιο, στο οποίο οι συμμετέχοντες κλήθηκαν να αναγνωρίσουν ποιο από τα κομμάτια που άκουσαν είχε δημιουργηθεί από τεχνητή νοημοσύνη.
Συνοψίζοντας, η παρούσα διπλωματική εργασία αναδεικνύει τις δυνατότητες των DCGANs στη δημιουργία ηλεκτρονικής μουσικής. Παρά τους περιορισμούς που ενδέχεται να παρουσιάζουν τα GANs, τα πειραματικά μας αποτελέσματα δείχνουν ότι τα μοντέλα που αναπτύξαμε κατάφεραν να παράξουν μουσική που προσεγγίζει σε μεγάλο βαθμό τις αρχικές συνθέσεις του συνόλου δεδομένων μας, δημιουργώντας έναν ρεαλιστικό ήχο. | el |
dc.format.extent | 74 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Deep generation of electronic music | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | Τhe goal of this thesis is to explore the generation of electronic music through the utilization of Deep Learning techniques.
The challenge of algorithmically generating music lies in creating authentic and aesthetically pleasing compositions that resonate with listeners. Music is deeply human, rooted in emotion and culture, while algorithms lack this understanding. This project aims to bridge technology and art by providing musicians with tools to explore new expressions and spark creativity. By finding a balance between technology and human emotion, it seeks to enrich musical innovation and inspire new compositions.
To do that, the path we have chosen is by making our own dataset which consists of images that represent the original music. These images are called spectrograms and they are a 2D representation of a sound, essentially a graph, where the horizontal axis represents time and the vertical axis represents frequency. To address this challenge, Generative Adversarial Networks (GANs) are employed as the modeling approach. GANs are a class of deep learning algorithms that have shown promise in generating realistic images and, by extension, spectrograms. The methodology involves training DCGANs on the dataset of spectrograms to learn the underlying patterns and structures of electronic music.
Generative Adversarial Networks (GANs) consist of two networks, the Generator and the Discriminator, engaged in a competitive, zero-sum game. Known as minimax in game theory, each network aims to outperform the other: the Generator generates "fake" images, while the Discriminator discerns between "real" and "fake" ones. As the Generator seeks to deceive the Discriminator and the Discriminator tries not to be fooled, both networks improve, resulting in the generation of increasingly realistic images.
The methods under examination revolve around the training and optimization of Deep Convolutional Generative Adversarial Networks (DCGANs), which are essentially GANs whose both the Generator and the Discriminator have Convolutional layers in their architectures.
These spectrograms are then converted back into audio, which was the goal all along. To evaluate how realistic the generated sound is, a questionnaire was distributed for people to answer, where participants are asked to find which one of the songs they heard is AI-generated.
In conclusion, this thesis showcases the potential of DCGANs in the domain of electronic music generation. Despite the inherent limitations that GANs can have, our experimental results demonstrate that our models successfully generated music closely resembling the compositions in our dataset, achieving a realistic sound output. | el |
dc.corporate.name | Εθνικό Κέντρο Έρευνας Φυσικών Επιστημών «Δημόκριτος» | el |
dc.contributor.master | Τεχνητή Νοημοσύνη - Artificial Intelligence | el |
dc.subject.keyword | GAN | el |
dc.subject.keyword | Generative Adversarial Network | el |
dc.subject.keyword | AI | el |
dc.subject.keyword | Deep learning | el |
dc.subject.keyword | Music generation | el |
dc.date.defense | 2024-03-06 | |