Comparative evaluation of algorithms of deep generative modelling for cloning human voice
Συγκριτική αξιολόγηση παραγωγικών αλγορίθμων για την κλωνοποίηση ανθρώπινης φωνής

Master Thesis
Συγγραφέας
Peppas, Stavros
Πέππας, Σταύρος
Ημερομηνία
2025-11Προβολή/ Άνοιγμα
Λέξεις κλειδιά
TTS ; Neural networks ; Speech synthesis ; Deep learning ; MOS ; Voice cloningΠερίληψη
Η παρούσα διατριβή παρουσιάζει μια εις βάθος συγκριτική μελέτη προηγμένων γενετικών
αλγορίθμων βαθιάς μάθησης για την κλωνοποίηση ανθρώπινης φωνής, εστιάζοντας τόσο στις
θεωρητικές βάσεις όσο και στις πρακτικές υλοποιήσεις. Η έρευνα διαμορφώνει ένα
ολοκληρωμένο πλαίσιο μέσω λεπτομερούς ανάλυσης των βασικών αρχών των νευρωνικών
δικτύων, πριν προχωρήσει σε συστηματική αξιολόγηση τεσσάρων διακριτών αρχιτεκτονικών:
ForwardTacotron, FastPitch, FastSpeech 2 και του Fine-tuned ForwardTacotron. Η μελέτη
εξετάζει την απόδοσή τους ως προς την ποιότητα ήχου, τον έλεγχο προσωδίας, την
υπολογιστική αποδοτικότητα και την προσαρμοστικότητα σε περιορισμένα δεδομένα.
Η έρευνα αξιοποιεί μια βάση δεδομένων της GLaDOS απο τη σειρά βιντεοπαιχνιδιών Portal,
καλύπτοντας ολόκληρη τη διαδικασία απο την προεπεξεργασία και τη φωνητική ευθυγράμμιση
εώς τη διαμόρφωση, εκπαίδευση και αξιολόγηση των μοντέλων σε οικιακό εξοπλίσμό χωρίς
εξειδικεύμενη υποδομή. Οι αντικειμενικές μετρήσεις, όπως το mel loss, duration loss, pitch loss
και energy loss, συνδυάζονται με υποκειμενικές αξιολογήσεις μέσω του δείκτη Mean Opinion
Score (MOS) επιτρέποντας μια στιβαρή ανάλυση των δυνατοτήτων και αδυναμιών κάθε
μοντέλου.
Τα πειραματικά αποτελέσματα δείχνουν ότι το fine-tuning βελτιώνει σταθερά την απόδοση
των μοντέλων, με τα FastSpeeh 2 και Fine-tuned ForwardTacotron να επιτυγχάνουν τις
υψηλότερες βαθμολογίες MOS, 3.16 και 3.15 αντίστοιχα. Το FastSpeech 2 παρουσίασε ισχυρές
δυνατότητες παρά τις προκλήσεις υπερπροσαρμογής, διατηρώντας υψηλή μέση ποιότητα με
αυξημένη μεταβλητότητα μεταξύ των δειγμάτων αναφοράς. Το βασικό ForwardTacotron
διακρίθηκε για την εξαιρετική αξιοπιστία και συνέπεια, επιτυγχάνοντας τη χαμηλότερη
μεταβλητότητα σε διαφορετικά γλωσσικά συμφραζόμενα, ενω το FastPitch επέδειξε προηγμένες
δυνατότητες ελέγχου τονικού ύψους και προσωδίας, επιτρέποντας λεπτομερή διαμόρφωση
εκφραστικών χαρακτηριστικών της ομιλίας. Η στατιστική ανάλυση μέσω one-way NOVA
επιβεβαίωσε σημαντικές διαφορές μεταξύ των μοντέλων, ενώ οι μεταγενέστερες δοκιμές
ανέδειξαν σαφείς ιεραρχίες απόδοσης. Η διατριβή εξετάζει επίσης πρακτικές προκλήσεις, όπως
η υπερπροσαρμογή, η έλλειψη δεδομένων και οι περιορισμοί υλικού.
Η έρευνα ολοκληρώνεται με την εξέταση των ηθικών ζητημάτων που σχετίζονται με την
τεχνολογία κλωνοποίησης φωνής. Προτείνονται μελλοντικές κατευθύνσεις, όπως η ενσωμάτωση
με μεγαλα γλωσσικά μοντέλα και εφαρμογές για την διατήρηση απειλούμενων διαλέκτων. Τα
ευρήματα αναδεικνύουν πολλαπλές βιώσιμες προσεγγίσεις για την επίτευξη κορυφαιάς
ποιότητας σύνθεσης, αποδεικνύοντας ότι τόσο η καινοτομίας στις αρχιτεκτονικές όσο και η
συστηματική βελτιστοποίηση καθειρωμένων πλαισίων μπορούν να οδηγήσουν σε ισοδύναμα
αποτελέσματα. Συνολικά, η εργασία προσφέρει μια ολιστική θεώρηση της τρέχουσας
κατάστασης και των μελλοντικών προοπτικών της νευρωνικής κλωνοποίησης φωνής,
παρέχοντας γνώσεις και συμπεράσματα για ερευνητές και επαγγελματίες του χώρου.


