Εμφάνιση απλής εγγραφής

dc.contributor.advisorΓιαννακόπουλος, Θεόδωρος
dc.contributor.authorΜανουρά, Δήμητρα
dc.date.accessioned2025-02-19T10:15:39Z
dc.date.available2025-02-19T10:15:39Z
dc.date.issued2024
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/17484
dc.description.abstractΟ στόχος αυτής της διπλωματικής εργασίας είναι η διερεύνηση της δημιουργίας ηλεκτρονικής μουσικής με τη χρήση τεχνικών Βαθιάς Μάθησης. Η αλγοριθμική δημιουργία μουσικής αποτελεί μια ιδιαίτερη πρόκληση, καθώς απαιτεί τη σύνθεση αυθεντικών και αισθητικά ευχάριστων έργων που να αγγίζουν συναισθηματικά τους ακροατές. Η μουσική είναι άρρηκτα συνδεδεμένη με την ανθρώπινη εμπειρία, το συναίσθημα και τον πολιτισμό, στοιχεία που οι αλγόριθμοι αδυνατούν να κατανοήσουν πλήρως. Αυτή η εργασία επιχειρεί να γεφυρώσει το χάσμα ανάμεσα στην τεχνολογία και την τέχνη, προσφέροντας στους μουσικούς εργαλεία που τους επιτρέπουν να ανακαλύψουν νέες μορφές έκφρασης και να ενισχύσουν τη δημιουργικότητά τους. Επιδιώκοντας την ισορροπία ανάμεσα στην τεχνολογία και τον ανθρώπινο παράγοντα, στόχος είναι να εμπλουτιστεί η μουσική καινοτομία και να γεννηθούν νέες ιδέες. Για να επιτευχθεί αυτό, δημιουργήσαμε ένα δικό μας σύνολο δεδομένων, το οποίο αποτελείται από εικόνες που αναπαριστούν την αρχική μουσική. Αυτές οι εικόνες, γνωστές ως φασματογραφήματα, είναι δισδιάστατες απεικονίσεις ήχου, ουσιαστικά γραφικές παραστάσεις όπου ο οριζόντιος άξονας δείχνει τον χρόνο και ο κάθετος τη συχνότητα. Για την αντιμετώπιση αυτής της πρόκλησης, επιλέξαμε να χρησιμοποιήσουμε Παραγωγικά Αντιπαραθετικά Δίκτυα (ΠΑΔ, GANs) ως βασική μεθοδολογία. Τα GANs, μια ιδιαίτερη κατηγορία αλγορίθμων βαθιάς μάθησης, έχουν αποδειχθεί εξαιρετικά αποτελεσματικά στη δημιουργία ρεαλιστικών εικόνων και, κατ' επέκταση, φασματογραφημάτων. Η προσέγγισή μας βασίζεται στην εκπαίδευση Βαθιών Συνελικτικών Παραγωγικών Αντιπαραθετικών Δικτύων (DCGANs) σε αυτό το σύνολο δεδομένων, ώστε να κατανοήσουν τα μοτίβα και τις δομές που χαρακτηρίζουν την ηλεκτρονική μουσική. Τα GANs αποτελούνται από δύο δίκτυα: τον Γεννήτορα (Generator), ο οποίος παράγει «ψεύτικες» εικόνες, και τον Διαχωριστή (Discriminator), ο οποίος διακρίνει ανάμεσα στις «αληθινές» και τις «ψεύτικες». Αυτά τα δύο δίκτυα εμπλέκονται σε ένα ανταγωνιστικό παίγνιο μηδενικού αθροίσματος, γνωστό ως minimax στη θεωρία παιγνίων, με αποτέλεσμα τη σταδιακή βελτίωση και των δύο. Καθώς ο Γεννήτορας προσπαθεί να ξεγελάσει τον Διαχωριστή και ο Διαχωριστής να μην ξεγελαστεί, το σύστημα παράγει ολοένα και πιο ρεαλιστικές εικόνες. Η μεθοδολογία μας εστιάζει στην εκπαίδευση και βελτιστοποίηση των DCGANs, όπου τόσο ο Γεννήτορας όσο και ο Διαχωριστής χρησιμοποιούν συνελικτικά επίπεδα στην αρχιτεκτονική τους. Μετά τη δημιουργία των φασματογραφημάτων, αυτά μετατρέπονται ξανά σε ήχο, που αποτελεί και τον τελικό μας στόχο. Για να αξιολογηθεί η ρεαλιστικότητα του παραγόμενου ήχου, σχεδιάστηκε ένα ερωτηματολόγιο, στο οποίο οι συμμετέχοντες κλήθηκαν να αναγνωρίσουν ποιο από τα κομμάτια που άκουσαν είχε δημιουργηθεί από τεχνητή νοημοσύνη. Συνοψίζοντας, η παρούσα διπλωματική εργασία αναδεικνύει τις δυνατότητες των DCGANs στη δημιουργία ηλεκτρονικής μουσικής. Παρά τους περιορισμούς που ενδέχεται να παρουσιάζουν τα GANs, τα πειραματικά μας αποτελέσματα δείχνουν ότι τα μοντέλα που αναπτύξαμε κατάφεραν να παράξουν μουσική που προσεγγίζει σε μεγάλο βαθμό τις αρχικές συνθέσεις του συνόλου δεδομένων μας, δημιουργώντας έναν ρεαλιστικό ήχο.el
dc.format.extent74el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleDeep generation of electronic musicel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENΤhe goal of this thesis is to explore the generation of electronic music through the utilization of Deep Learning techniques. The challenge of algorithmically generating music lies in creating authentic and aesthetically pleasing compositions that resonate with listeners. Music is deeply human, rooted in emotion and culture, while algorithms lack this understanding. This project aims to bridge technology and art by providing musicians with tools to explore new expressions and spark creativity. By finding a balance between technology and human emotion, it seeks to enrich musical innovation and inspire new compositions. To do that, the path we have chosen is by making our own dataset which consists of images that represent the original music. These images are called spectrograms and they are a 2D representation of a sound, essentially a graph, where the horizontal axis represents time and the vertical axis represents frequency. To address this challenge, Generative Adversarial Networks (GANs) are employed as the modeling approach. GANs are a class of deep learning algorithms that have shown promise in generating realistic images and, by extension, spectrograms. The methodology involves training DCGANs on the dataset of spectrograms to learn the underlying patterns and structures of electronic music. Generative Adversarial Networks (GANs) consist of two networks, the Generator and the Discriminator, engaged in a competitive, zero-sum game. Known as minimax in game theory, each network aims to outperform the other: the Generator generates "fake" images, while the Discriminator discerns between "real" and "fake" ones. As the Generator seeks to deceive the Discriminator and the Discriminator tries not to be fooled, both networks improve, resulting in the generation of increasingly realistic images. The methods under examination revolve around the training and optimization of Deep Convolutional Generative Adversarial Networks (DCGANs), which are essentially GANs whose both the Generator and the Discriminator have Convolutional layers in their architectures. These spectrograms are then converted back into audio, which was the goal all along. To evaluate how realistic the generated sound is, a questionnaire was distributed for people to answer, where participants are asked to find which one of the songs they heard is AI-generated. In conclusion, this thesis showcases the potential of DCGANs in the domain of electronic music generation. Despite the inherent limitations that GANs can have, our experimental results demonstrate that our models successfully generated music closely resembling the compositions in our dataset, achieving a realistic sound output.el
dc.corporate.nameΕθνικό Κέντρο Έρευνας Φυσικών Επιστημών «Δημόκριτος»el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordGANel
dc.subject.keywordGenerative Adversarial Networkel
dc.subject.keywordAIel
dc.subject.keywordDeep learningel
dc.subject.keywordMusic generationel
dc.date.defense2024-03-06


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»