Show simple item record

Comparative evaluation of algorithms of deep generative modelling for cloning human voice

dc.contributor.advisorSotiropoulos, Dionisios
dc.contributor.advisorΣωτηρόπουλος, Διονύσιος
dc.contributor.authorPeppas, Stavros
dc.contributor.authorΠέππας, Σταύρος
dc.date.accessioned2026-01-19T10:56:02Z
dc.date.available2026-01-19T10:56:02Z
dc.date.issued2025-11
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/18786
dc.descriptionAvailable after 31/12/2028
dc.description.abstractΗ παρούσα διατριβή παρουσιάζει μια εις βάθος συγκριτική μελέτη προηγμένων γενετικών αλγορίθμων βαθιάς μάθησης για την κλωνοποίηση ανθρώπινης φωνής, εστιάζοντας τόσο στις θεωρητικές βάσεις όσο και στις πρακτικές υλοποιήσεις. Η έρευνα διαμορφώνει ένα ολοκληρωμένο πλαίσιο μέσω λεπτομερούς ανάλυσης των βασικών αρχών των νευρωνικών δικτύων, πριν προχωρήσει σε συστηματική αξιολόγηση τεσσάρων διακριτών αρχιτεκτονικών: ForwardTacotron, FastPitch, FastSpeech 2 και του Fine-tuned ForwardTacotron. Η μελέτη εξετάζει την απόδοσή τους ως προς την ποιότητα ήχου, τον έλεγχο προσωδίας, την υπολογιστική αποδοτικότητα και την προσαρμοστικότητα σε περιορισμένα δεδομένα. Η έρευνα αξιοποιεί μια βάση δεδομένων της GLaDOS απο τη σειρά βιντεοπαιχνιδιών Portal, καλύπτοντας ολόκληρη τη διαδικασία απο την προεπεξεργασία και τη φωνητική ευθυγράμμιση εώς τη διαμόρφωση, εκπαίδευση και αξιολόγηση των μοντέλων σε οικιακό εξοπλίσμό χωρίς εξειδικεύμενη υποδομή. Οι αντικειμενικές μετρήσεις, όπως το mel loss, duration loss, pitch loss και energy loss, συνδυάζονται με υποκειμενικές αξιολογήσεις μέσω του δείκτη Mean Opinion Score (MOS) επιτρέποντας μια στιβαρή ανάλυση των δυνατοτήτων και αδυναμιών κάθε μοντέλου. Τα πειραματικά αποτελέσματα δείχνουν ότι το fine-tuning βελτιώνει σταθερά την απόδοση των μοντέλων, με τα FastSpeeh 2 και Fine-tuned ForwardTacotron να επιτυγχάνουν τις υψηλότερες βαθμολογίες MOS, 3.16 και 3.15 αντίστοιχα. Το FastSpeech 2 παρουσίασε ισχυρές δυνατότητες παρά τις προκλήσεις υπερπροσαρμογής, διατηρώντας υψηλή μέση ποιότητα με αυξημένη μεταβλητότητα μεταξύ των δειγμάτων αναφοράς. Το βασικό ForwardTacotron διακρίθηκε για την εξαιρετική αξιοπιστία και συνέπεια, επιτυγχάνοντας τη χαμηλότερη μεταβλητότητα σε διαφορετικά γλωσσικά συμφραζόμενα, ενω το FastPitch επέδειξε προηγμένες δυνατότητες ελέγχου τονικού ύψους και προσωδίας, επιτρέποντας λεπτομερή διαμόρφωση εκφραστικών χαρακτηριστικών της ομιλίας. Η στατιστική ανάλυση μέσω one-way NOVA επιβεβαίωσε σημαντικές διαφορές μεταξύ των μοντέλων, ενώ οι μεταγενέστερες δοκιμές ανέδειξαν σαφείς ιεραρχίες απόδοσης. Η διατριβή εξετάζει επίσης πρακτικές προκλήσεις, όπως η υπερπροσαρμογή, η έλλειψη δεδομένων και οι περιορισμοί υλικού. Η έρευνα ολοκληρώνεται με την εξέταση των ηθικών ζητημάτων που σχετίζονται με την τεχνολογία κλωνοποίησης φωνής. Προτείνονται μελλοντικές κατευθύνσεις, όπως η ενσωμάτωση με μεγαλα γλωσσικά μοντέλα και εφαρμογές για την διατήρηση απειλούμενων διαλέκτων. Τα ευρήματα αναδεικνύουν πολλαπλές βιώσιμες προσεγγίσεις για την επίτευξη κορυφαιάς ποιότητας σύνθεσης, αποδεικνύοντας ότι τόσο η καινοτομίας στις αρχιτεκτονικές όσο και η συστηματική βελτιστοποίηση καθειρωμένων πλαισίων μπορούν να οδηγήσουν σε ισοδύναμα αποτελέσματα. Συνολικά, η εργασία προσφέρει μια ολιστική θεώρηση της τρέχουσας κατάστασης και των μελλοντικών προοπτικών της νευρωνικής κλωνοποίησης φωνής, παρέχοντας γνώσεις και συμπεράσματα για ερευνητές και επαγγελματίες του χώρου.el
dc.format.extent129el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/3.0/gr/*
dc.titleComparative evaluation of algorithms of deep generative modelling for cloning human voiceel
dc.title.alternativeΣυγκριτική αξιολόγηση παραγωγικών αλγορίθμων για την κλωνοποίηση ανθρώπινης φωνήςel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENThis thesis presents an in-depth comparative study of state-of-the-art deep generative algorithms for human voice cloning, focusing on both theoretical foundations and practical implementations. The research establishes a comprehensive framework through detailed examination of neural network fundamentals before conducting systematic evaluation of four distinct architectures: ForwardTacotron, FastPitch, FastSpeech 2 and Fine-tuned ForwardTacotron. The study explores their performance in terms of audio quality, prosody control and computational efficiency and adaptability to limited data. The research leverages the GLaDOS dataset from the Portal video game series, covering the complete pipeline from data preprocessing and phonetic alignment to model configuration, training and evaluation on consumer-grade hardware without specialized infrastructure. Objective metrics, such as mel loss, duration loss, pitch loss and energy loss, are combined with subjective assessments using Mean Opinion Score (MOS), enabling a robust analysis or each model’s strengths and limitations. Experimental results demonstrate that fine-tuning consistently enhances model performance, with FastSpeech 2 and Fine-tuned ForwardTacotron achieving the highest MOS scores of 3.16 and 3.15 respectively. FastSpeech 2 demonstrated strong potential despite encountering overfitting challenges, while maintaining superior average quality coupled with higher variability across reference samples. The base ForwardTacotron distinguished itself through its exceptional reliability and consistency, achieving the lowest variability across diverse linguistic contexts, while FastPitch demonstrates sophisticated capabilities in pitch and intonation control, enabling nuanced manipulation of expressive speech characteristics. Statistical analysis through one-way NOVA confirmed significant differences among models, with post-hoc testing revealing clear performance hierarchies. This thesis also addresses practical challenges, including overfitting, data scarcity and hardware constraints. The research concludes by examining ethical consideration surrounding voice cloning technology. Future directions are proposed, such as integration with large language models and applications for cultural preservation of endangered dialects. The findings establish multiple viable pathways to achieving state-of-the-art synthesis quality, demonstrating that both architectural innovation and systematic optimization of established frameworks can produce equivalent results. Overall, this work offers a holistic perspective on the current landscape and future potential of neural voice cloning, providing actionable insights for both researchers and practitioners.el
dc.contributor.masterΠληροφορικήel
dc.subject.keywordTTSel
dc.subject.keywordNeural networksel
dc.subject.keywordSpeech synthesisel
dc.subject.keywordDeep learningel
dc.subject.keywordMOSel
dc.subject.keywordVoice cloningel
dc.date.defense2025-09-12


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Contact Us
Send Feedback
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»