Computational models of multimodal interaction for music generation and music information retrieval
Υπολογιστικά μοντέλα πολυτροπικής διαδραστικότητας για μουσική δημιουργία και ανάκτηση μουσικής πληροφορίας
Doctoral Thesis
Συγγραφέας
Kritsis, Kosmas
Κρίτσης, Κοσμάς
Ημερομηνία
2023Επιβλέπων
Pikrakis, AngelosΠικράκης, Άγγελος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Autoregressive models ; Recurrent Neural Networks ; Convolutional Neural Networks ; Sequence generation ; Deep learning ; Curriculum learning ; Human-computer interaction ; Gesture recognition ; Human motion analysis ; Dance motion synthesis ; Long short-term memory ; Automatic music generationΠερίληψη
Η έρευνα στον τομέα της μουσικής αλληλεπίδρασης απαιτεί τη χρήση διεπιστημονικών μέσων κατανόησης βασισμένων σε δυναμικές αντιλήψεις. Με αυτήν την έννοια, οι κύριες προσεγγίσεις, οι εμπειρικές μελέτες, οι υποκειμενικές αξιολογήσεις και οι τεχνικές μοντελοποίησης που περιγράφονται σε αυτήν τη διδακτορική διατριβή ακολουθούν αντίστοιχες διεπιστημονικές αρχές. Τα συστήματά μας λαμβάνουν και αναλύουν διάφορες μορφές και επίπεδα πληροφορίας που σχετίζονται με τη μουσική, συμπεριλαμβανομένου του ακουστικού σήματος, των αισθητηριακών και σκελετικών δεδομένων, καθώς και διαφορετικών τύπων συμβολικών αναπαραστάσεων μουσικής. Επομένως, σε αυτή τη διδακτορική διατριβή παρουσιάζουμε μια εκτενή εξερεύνηση των πεδίων της υπολογιστικής μουσικής, καθώς και της αυτόματης αναγνώρισης και σύνθεσης κίνησης, περιλαμβάνοντας μια σειρά από μεθοδολογίες, μοντέλα και εφαρμογές. Η έρευνα αποσκοπεί στη βελτίωση της κατανόησης αυτών των πεδίων και στην ανάπτυξη νέων προσεγγίσεων για την αντιμετώπιση των διάφορων ερευνητικών προκλήσεων. Μέσα από τις πολλαπλές πειραματικές προσεγγίσεις που αναπτύσσουμε, αναδύονται πολύτιμα συμπεράσματα για τις δυνατότητες των διαφορετικών υπολογιστικών αρχιτεκτονικών, ιδιαίτερα αυτών που βασίζονται σε αναδρομικές και συνελικτικές συναρτήσεις. Μέσα από τις πολλαπλές πειραματικές προσεγγίσεις που αναπτύσσουμε, αναδύονται πολύτιμα συμπεράσματα για τις δυνατότητες και τις επιπτώσεις των διαφορετικών υπολογιστικών αρχιτεκτονικών, ιδιαίτερα αυτών που βασίζονται σε αναδρομικές και συνελικτικές συναρτήσεις. Συγκεκριμένα, η έρευνά μας ξεκινά με την αξιολόγηση υπολογιστικών μοντέλων για την αναγνώριση μουσικών κινήσεων, αναδεικνύοντας την ανωτερότητα των συνελικτικών μοντέλων, όπως οι βαθιές συνελικτικές αρχιτεκτονικές, όσον αφορά την ακρίβεια αναγνώρισης και τον χρόνο υπολογισμού. Βασιζόμενοι σε αυτά τα ευρήματα, αναπτύσσουμε μία διαδικτυακή εφαρμογή με στόχο τη μουσική αλληλεπίδραση σε πραγματικό χρόνο με εικονικά μουσικά όργανα, συνδυάζοντας τόσο συνελικτικές όσο και αναδρομικές αρχιτεκτονικές με σκοπό τη βελτίωση της εμπειρίας χρήστη. Επίσης, εξερευνούμε την αυτόματη σύνθεση χορευτικών κινήσεων με βάση το ακουστικό σήμα, όπου βαθιές συνελικτικές αρχιτεκτονικές που ενσωματώνουν έναν εξαρτώμενο αυτοκωδικοποιητή, υπερτερούν σε σχέση με τα αναδρομικά μοντέλα στη δημιουργία ποικίλων και ρεαλιστικών ακολουθιών χορευτικών κινήσεων. Στη συνέχεια, επικεντρωνόμαστε στην προσομοίωση της αλληλεπίδρασης μεταξύ του ανθρώπινου σολίστα και του αυτόματου συνοδού, στο πλαίσιο μοντελοποίησης του τζαζ αυτοσχεδιασμού, αναδεικνύοντας τις προκλήσεις και τις προοπτικές των εγγενών προσεγγίσεων μηχανικής μάθησης στη μοντελοποίηση μουσικών αλληλεπιδράσεων. Τέλος, διερευνούμε την επίδραση των συμβολικών κωδικοποιήσεων στην αυτόματη παραγωγή μουσικής, τονίζοντας τη σημασία των μουσικών χαρακτηριστικών που πρέπει να αποτυπώνονται κατά τη σχεδίαση νέων προσεγγίσεων κωδικοποίησης, με σκοπό τη βελτιστοποίηση της δομής της παραγόμενης μουσικής. Συνολικά, η έρευνά μας παρέχει πολύτιμες πληροφορίες για την απόδοση και τις δυνατότητες διαφορετικών υπολογιστικών αρχιτεκτονικών στην υπολογιστική μουσική παραγωγή και αλληλεπίδραση. Η επιτυχής ενσωμάτωση συνελικτικών και αναδρομικών μοντέλων καταδεικνύει την ικανότητά τους να μοντελοποιούν περίπλοκες μουσικές αλληλεπιδράσεις. Τονίζουμε τη σημασία της επιλογής της κατάλληλης υπολογιστικής αρχιτεκτονικής με βάση τους υποκειμενικούς στόχους, της συνθήκες και τους περιορισμούς που ορίζει το κάθε πρόβλημα προς διερεύνηση. Τα ευρήματά μας θέτουν τα θεμέλια για περαιτέρω έρευνα, ενθαρρύνοντας την εξερεύνηση προηγμένων αρχιτεκτονικών, μεγαλύτερων συνόλων δεδομένων, καθώς και την εφαρμογή τους σε επιπλέων ερευνητικά προβλήματα υπολογιστικής μουσικής παραγωγής και αλληλεπίδρασης, που δεν καλύφθηκαν στην παρούσα διατριβή. Με αυτόν τον τρόπο, προωθούμε νέες δυνατότητες δημιουργικής έκφρασης, συνεργασίας ανθρώπου-μηχανής και την πρόοδο της μουσικής τεχνολογίας στο σύνολό της.