Comparative evaluation of algorithms of deep generative modelling for cloning human voice

Peppas, Stavros; Πέππας, Σταύρος

dc.contributor.advisor	Sotiropoulos, Dionisios
dc.contributor.advisor	Σωτηρόπουλος, Διονύσιος
dc.contributor.author	Peppas, Stavros
dc.contributor.author	Πέππας, Σταύρος
dc.date.accessioned	2026-01-19T10:56:02Z
dc.date.available	2026-01-19T10:56:02Z
dc.date.issued	2025-11
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/18786
dc.description	Available after 31/12/2028
dc.description.abstract	Η παρούσα διατριβή παρουσιάζει μια εις βάθος συγκριτική μελέτη προηγμένων γενετικών αλγορίθμων βαθιάς μάθησης για την κλωνοποίηση ανθρώπινης φωνής, εστιάζοντας τόσο στις θεωρητικές βάσεις όσο και στις πρακτικές υλοποιήσεις. Η έρευνα διαμορφώνει ένα ολοκληρωμένο πλαίσιο μέσω λεπτομερούς ανάλυσης των βασικών αρχών των νευρωνικών δικτύων, πριν προχωρήσει σε συστηματική αξιολόγηση τεσσάρων διακριτών αρχιτεκτονικών: ForwardTacotron, FastPitch, FastSpeech 2 και του Fine-tuned ForwardTacotron. Η μελέτη εξετάζει την απόδοσή τους ως προς την ποιότητα ήχου, τον έλεγχο προσωδίας, την υπολογιστική αποδοτικότητα και την προσαρμοστικότητα σε περιορισμένα δεδομένα. Η έρευνα αξιοποιεί μια βάση δεδομένων της GLaDOS απο τη σειρά βιντεοπαιχνιδιών Portal, καλύπτοντας ολόκληρη τη διαδικασία απο την προεπεξεργασία και τη φωνητική ευθυγράμμιση εώς τη διαμόρφωση, εκπαίδευση και αξιολόγηση των μοντέλων σε οικιακό εξοπλίσμό χωρίς εξειδικεύμενη υποδομή. Οι αντικειμενικές μετρήσεις, όπως το mel loss, duration loss, pitch loss και energy loss, συνδυάζονται με υποκειμενικές αξιολογήσεις μέσω του δείκτη Mean Opinion Score (MOS) επιτρέποντας μια στιβαρή ανάλυση των δυνατοτήτων και αδυναμιών κάθε μοντέλου. Τα πειραματικά αποτελέσματα δείχνουν ότι το fine-tuning βελτιώνει σταθερά την απόδοση των μοντέλων, με τα FastSpeeh 2 και Fine-tuned ForwardTacotron να επιτυγχάνουν τις υψηλότερες βαθμολογίες MOS, 3.16 και 3.15 αντίστοιχα. Το FastSpeech 2 παρουσίασε ισχυρές δυνατότητες παρά τις προκλήσεις υπερπροσαρμογής, διατηρώντας υψηλή μέση ποιότητα με αυξημένη μεταβλητότητα μεταξύ των δειγμάτων αναφοράς. Το βασικό ForwardTacotron διακρίθηκε για την εξαιρετική αξιοπιστία και συνέπεια, επιτυγχάνοντας τη χαμηλότερη μεταβλητότητα σε διαφορετικά γλωσσικά συμφραζόμενα, ενω το FastPitch επέδειξε προηγμένες δυνατότητες ελέγχου τονικού ύψους και προσωδίας, επιτρέποντας λεπτομερή διαμόρφωση εκφραστικών χαρακτηριστικών της ομιλίας. Η στατιστική ανάλυση μέσω one-way NOVA επιβεβαίωσε σημαντικές διαφορές μεταξύ των μοντέλων, ενώ οι μεταγενέστερες δοκιμές ανέδειξαν σαφείς ιεραρχίες απόδοσης. Η διατριβή εξετάζει επίσης πρακτικές προκλήσεις, όπως η υπερπροσαρμογή, η έλλειψη δεδομένων και οι περιορισμοί υλικού. Η έρευνα ολοκληρώνεται με την εξέταση των ηθικών ζητημάτων που σχετίζονται με την τεχνολογία κλωνοποίησης φωνής. Προτείνονται μελλοντικές κατευθύνσεις, όπως η ενσωμάτωση με μεγαλα γλωσσικά μοντέλα και εφαρμογές για την διατήρηση απειλούμενων διαλέκτων. Τα ευρήματα αναδεικνύουν πολλαπλές βιώσιμες προσεγγίσεις για την επίτευξη κορυφαιάς ποιότητας σύνθεσης, αποδεικνύοντας ότι τόσο η καινοτομίας στις αρχιτεκτονικές όσο και η συστηματική βελτιστοποίηση καθειρωμένων πλαισίων μπορούν να οδηγήσουν σε ισοδύναμα αποτελέσματα. Συνολικά, η εργασία προσφέρει μια ολιστική θεώρηση της τρέχουσας κατάστασης και των μελλοντικών προοπτικών της νευρωνικής κλωνοποίησης φωνής, παρέχοντας γνώσεις και συμπεράσματα για ερευνητές και επαγγελματίες του χώρου.	el
dc.format.extent	129	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.title	Comparative evaluation of algorithms of deep generative modelling for cloning human voice	el
dc.title.alternative	Συγκριτική αξιολόγηση παραγωγικών αλγορίθμων για την κλωνοποίηση ανθρώπινης φωνής	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής	el
dc.description.abstractEN	This thesis presents an in-depth comparative study of state-of-the-art deep generative algorithms for human voice cloning, focusing on both theoretical foundations and practical implementations. The research establishes a comprehensive framework through detailed examination of neural network fundamentals before conducting systematic evaluation of four distinct architectures: ForwardTacotron, FastPitch, FastSpeech 2 and Fine-tuned ForwardTacotron. The study explores their performance in terms of audio quality, prosody control and computational efficiency and adaptability to limited data. The research leverages the GLaDOS dataset from the Portal video game series, covering the complete pipeline from data preprocessing and phonetic alignment to model configuration, training and evaluation on consumer-grade hardware without specialized infrastructure. Objective metrics, such as mel loss, duration loss, pitch loss and energy loss, are combined with subjective assessments using Mean Opinion Score (MOS), enabling a robust analysis or each model’s strengths and limitations. Experimental results demonstrate that fine-tuning consistently enhances model performance, with FastSpeech 2 and Fine-tuned ForwardTacotron achieving the highest MOS scores of 3.16 and 3.15 respectively. FastSpeech 2 demonstrated strong potential despite encountering overfitting challenges, while maintaining superior average quality coupled with higher variability across reference samples. The base ForwardTacotron distinguished itself through its exceptional reliability and consistency, achieving the lowest variability across diverse linguistic contexts, while FastPitch demonstrates sophisticated capabilities in pitch and intonation control, enabling nuanced manipulation of expressive speech characteristics. Statistical analysis through one-way NOVA confirmed significant differences among models, with post-hoc testing revealing clear performance hierarchies. This thesis also addresses practical challenges, including overfitting, data scarcity and hardware constraints. The research concludes by examining ethical consideration surrounding voice cloning technology. Future directions are proposed, such as integration with large language models and applications for cultural preservation of endangered dialects. The findings establish multiple viable pathways to achieving state-of-the-art synthesis quality, demonstrating that both architectural innovation and systematic optimization of established frameworks can produce equivalent results. Overall, this work offers a holistic perspective on the current landscape and future potential of neural voice cloning, providing actionable insights for both researchers and practitioners.	el
dc.contributor.master	Πληροφορική	el
dc.subject.keyword	TTS	el
dc.subject.keyword	Neural networks	el
dc.subject.keyword	Speech synthesis	el
dc.subject.keyword	Deep learning	el
dc.subject.keyword	MOS	el
dc.subject.keyword	Voice cloning	el
dc.date.defense	2025-09-12

Files in this item

Files	Size	Format	View
There are no files associated with this item.

This item appears in the following Collection(s)

Τμήμα Πληροφορικής
Department of Informatics

Show simple item record

Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα