Deep generation of electronic music

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
GAN ; Generative Adversarial Network ; AI ; Deep learning ; Music generationΠερίληψη
Ο στόχος αυτής της διπλωματικής εργασίας είναι η διερεύνηση της δημιουργίας ηλεκτρονικής μουσικής με τη χρήση τεχνικών Βαθιάς Μάθησης.
Η αλγοριθμική δημιουργία μουσικής αποτελεί μια ιδιαίτερη πρόκληση, καθώς απαιτεί τη σύνθεση αυθεντικών και αισθητικά ευχάριστων έργων που να αγγίζουν συναισθηματικά τους ακροατές. Η μουσική είναι άρρηκτα συνδεδεμένη με την ανθρώπινη εμπειρία, το συναίσθημα και τον πολιτισμό, στοιχεία που οι αλγόριθμοι αδυνατούν να κατανοήσουν πλήρως. Αυτή η εργασία επιχειρεί να γεφυρώσει το χάσμα ανάμεσα στην τεχνολογία και την τέχνη, προσφέροντας στους μουσικούς εργαλεία που τους επιτρέπουν να ανακαλύψουν νέες μορφές έκφρασης και να ενισχύσουν τη δημιουργικότητά τους. Επιδιώκοντας την ισορροπία ανάμεσα στην τεχνολογία και τον ανθρώπινο παράγοντα, στόχος είναι να εμπλουτιστεί η μουσική καινοτομία και να γεννηθούν νέες ιδέες.
Για να επιτευχθεί αυτό, δημιουργήσαμε ένα δικό μας σύνολο δεδομένων, το οποίο αποτελείται από εικόνες που αναπαριστούν την αρχική μουσική. Αυτές οι εικόνες, γνωστές ως φασματογραφήματα, είναι δισδιάστατες απεικονίσεις ήχου, ουσιαστικά γραφικές παραστάσεις όπου ο οριζόντιος άξονας δείχνει τον χρόνο και ο κάθετος τη συχνότητα. Για την αντιμετώπιση αυτής της πρόκλησης, επιλέξαμε να χρησιμοποιήσουμε Παραγωγικά Αντιπαραθετικά Δίκτυα (ΠΑΔ, GANs) ως βασική μεθοδολογία. Τα GANs, μια ιδιαίτερη κατηγορία αλγορίθμων βαθιάς μάθησης, έχουν αποδειχθεί εξαιρετικά αποτελεσματικά στη δημιουργία ρεαλιστικών εικόνων και, κατ' επέκταση, φασματογραφημάτων.
Η προσέγγισή μας βασίζεται στην εκπαίδευση Βαθιών Συνελικτικών Παραγωγικών Αντιπαραθετικών Δικτύων (DCGANs) σε αυτό το σύνολο δεδομένων, ώστε να κατανοήσουν τα μοτίβα και τις δομές που χαρακτηρίζουν την ηλεκτρονική μουσική. Τα GANs αποτελούνται από δύο δίκτυα: τον Γεννήτορα (Generator), ο οποίος παράγει «ψεύτικες» εικόνες, και τον Διαχωριστή (Discriminator), ο οποίος διακρίνει ανάμεσα στις «αληθινές» και τις «ψεύτικες». Αυτά τα δύο δίκτυα εμπλέκονται σε ένα ανταγωνιστικό παίγνιο μηδενικού αθροίσματος, γνωστό ως minimax στη θεωρία παιγνίων, με αποτέλεσμα τη σταδιακή βελτίωση και των δύο. Καθώς ο Γεννήτορας προσπαθεί να ξεγελάσει τον Διαχωριστή και ο Διαχωριστής να μην ξεγελαστεί, το σύστημα παράγει ολοένα και πιο ρεαλιστικές εικόνες.
Η μεθοδολογία μας εστιάζει στην εκπαίδευση και βελτιστοποίηση των DCGANs, όπου τόσο ο Γεννήτορας όσο και ο Διαχωριστής χρησιμοποιούν συνελικτικά επίπεδα στην αρχιτεκτονική τους. Μετά τη δημιουργία των φασματογραφημάτων, αυτά μετατρέπονται ξανά σε ήχο, που αποτελεί και τον τελικό μας στόχο. Για να αξιολογηθεί η ρεαλιστικότητα του παραγόμενου ήχου, σχεδιάστηκε ένα ερωτηματολόγιο, στο οποίο οι συμμετέχοντες κλήθηκαν να αναγνωρίσουν ποιο από τα κομμάτια που άκουσαν είχε δημιουργηθεί από τεχνητή νοημοσύνη.
Συνοψίζοντας, η παρούσα διπλωματική εργασία αναδεικνύει τις δυνατότητες των DCGANs στη δημιουργία ηλεκτρονικής μουσικής. Παρά τους περιορισμούς που ενδέχεται να παρουσιάζουν τα GANs, τα πειραματικά μας αποτελέσματα δείχνουν ότι τα μοντέλα που αναπτύξαμε κατάφεραν να παράξουν μουσική που προσεγγίζει σε μεγάλο βαθμό τις αρχικές συνθέσεις του συνόλου δεδομένων μας, δημιουργώντας έναν ρεαλιστικό ήχο.