| dc.contributor.advisor | Sotiropoulos, Dionisios | |
| dc.contributor.advisor | Σωτηρόπουλος, Διονύσιος | |
| dc.contributor.author | Peppas, Stavros | |
| dc.contributor.author | Πέππας, Σταύρος | |
| dc.date.accessioned | 2026-01-19T10:56:02Z | |
| dc.date.available | 2026-01-19T10:56:02Z | |
| dc.date.issued | 2025-11 | |
| dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/18786 | |
| dc.description | Available after 31/12/2028 | |
| dc.description.abstract | Η παρούσα διατριβή παρουσιάζει μια εις βάθος συγκριτική μελέτη προηγμένων γενετικών
αλγορίθμων βαθιάς μάθησης για την κλωνοποίηση ανθρώπινης φωνής, εστιάζοντας τόσο στις
θεωρητικές βάσεις όσο και στις πρακτικές υλοποιήσεις. Η έρευνα διαμορφώνει ένα
ολοκληρωμένο πλαίσιο μέσω λεπτομερούς ανάλυσης των βασικών αρχών των νευρωνικών
δικτύων, πριν προχωρήσει σε συστηματική αξιολόγηση τεσσάρων διακριτών αρχιτεκτονικών:
ForwardTacotron, FastPitch, FastSpeech 2 και του Fine-tuned ForwardTacotron. Η μελέτη
εξετάζει την απόδοσή τους ως προς την ποιότητα ήχου, τον έλεγχο προσωδίας, την
υπολογιστική αποδοτικότητα και την προσαρμοστικότητα σε περιορισμένα δεδομένα.
Η έρευνα αξιοποιεί μια βάση δεδομένων της GLaDOS απο τη σειρά βιντεοπαιχνιδιών Portal,
καλύπτοντας ολόκληρη τη διαδικασία απο την προεπεξεργασία και τη φωνητική ευθυγράμμιση
εώς τη διαμόρφωση, εκπαίδευση και αξιολόγηση των μοντέλων σε οικιακό εξοπλίσμό χωρίς
εξειδικεύμενη υποδομή. Οι αντικειμενικές μετρήσεις, όπως το mel loss, duration loss, pitch loss
και energy loss, συνδυάζονται με υποκειμενικές αξιολογήσεις μέσω του δείκτη Mean Opinion
Score (MOS) επιτρέποντας μια στιβαρή ανάλυση των δυνατοτήτων και αδυναμιών κάθε
μοντέλου.
Τα πειραματικά αποτελέσματα δείχνουν ότι το fine-tuning βελτιώνει σταθερά την απόδοση
των μοντέλων, με τα FastSpeeh 2 και Fine-tuned ForwardTacotron να επιτυγχάνουν τις
υψηλότερες βαθμολογίες MOS, 3.16 και 3.15 αντίστοιχα. Το FastSpeech 2 παρουσίασε ισχυρές
δυνατότητες παρά τις προκλήσεις υπερπροσαρμογής, διατηρώντας υψηλή μέση ποιότητα με
αυξημένη μεταβλητότητα μεταξύ των δειγμάτων αναφοράς. Το βασικό ForwardTacotron
διακρίθηκε για την εξαιρετική αξιοπιστία και συνέπεια, επιτυγχάνοντας τη χαμηλότερη
μεταβλητότητα σε διαφορετικά γλωσσικά συμφραζόμενα, ενω το FastPitch επέδειξε προηγμένες
δυνατότητες ελέγχου τονικού ύψους και προσωδίας, επιτρέποντας λεπτομερή διαμόρφωση
εκφραστικών χαρακτηριστικών της ομιλίας. Η στατιστική ανάλυση μέσω one-way NOVA
επιβεβαίωσε σημαντικές διαφορές μεταξύ των μοντέλων, ενώ οι μεταγενέστερες δοκιμές
ανέδειξαν σαφείς ιεραρχίες απόδοσης. Η διατριβή εξετάζει επίσης πρακτικές προκλήσεις, όπως
η υπερπροσαρμογή, η έλλειψη δεδομένων και οι περιορισμοί υλικού.
Η έρευνα ολοκληρώνεται με την εξέταση των ηθικών ζητημάτων που σχετίζονται με την
τεχνολογία κλωνοποίησης φωνής. Προτείνονται μελλοντικές κατευθύνσεις, όπως η ενσωμάτωση
με μεγαλα γλωσσικά μοντέλα και εφαρμογές για την διατήρηση απειλούμενων διαλέκτων. Τα
ευρήματα αναδεικνύουν πολλαπλές βιώσιμες προσεγγίσεις για την επίτευξη κορυφαιάς
ποιότητας σύνθεσης, αποδεικνύοντας ότι τόσο η καινοτομίας στις αρχιτεκτονικές όσο και η
συστηματική βελτιστοποίηση καθειρωμένων πλαισίων μπορούν να οδηγήσουν σε ισοδύναμα
αποτελέσματα. Συνολικά, η εργασία προσφέρει μια ολιστική θεώρηση της τρέχουσας
κατάστασης και των μελλοντικών προοπτικών της νευρωνικής κλωνοποίησης φωνής,
παρέχοντας γνώσεις και συμπεράσματα για ερευνητές και επαγγελματίες του χώρου. | el |
| dc.format.extent | 129 | el |
| dc.language.iso | en | el |
| dc.publisher | Πανεπιστήμιο Πειραιώς | el |
| dc.rights | Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα | * |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc/3.0/gr/ | * |
| dc.title | Comparative evaluation of algorithms of deep generative modelling for cloning human voice | el |
| dc.title.alternative | Συγκριτική αξιολόγηση παραγωγικών αλγορίθμων για την κλωνοποίηση ανθρώπινης φωνής | el |
| dc.type | Master Thesis | el |
| dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
| dc.description.abstractEN | This thesis presents an in-depth comparative study of state-of-the-art deep generative
algorithms for human voice cloning, focusing on both theoretical foundations and practical
implementations. The research establishes a comprehensive framework through detailed
examination of neural network fundamentals before conducting systematic evaluation of four
distinct architectures: ForwardTacotron, FastPitch, FastSpeech 2 and Fine-tuned
ForwardTacotron. The study explores their performance in terms of audio quality, prosody
control and computational efficiency and adaptability to limited data.
The research leverages the GLaDOS dataset from the Portal video game series, covering
the complete pipeline from data preprocessing and phonetic alignment to model configuration,
training and evaluation on consumer-grade hardware without specialized infrastructure.
Objective metrics, such as mel loss, duration loss, pitch loss and energy loss, are combined
with subjective assessments using Mean Opinion Score (MOS), enabling a robust analysis or
each model’s strengths and limitations.
Experimental results demonstrate that fine-tuning consistently enhances model performance,
with FastSpeech 2 and Fine-tuned ForwardTacotron achieving the highest MOS scores of 3.16
and 3.15 respectively. FastSpeech 2 demonstrated strong potential despite encountering
overfitting challenges, while maintaining superior average quality coupled with higher variability
across reference samples. The base ForwardTacotron distinguished itself through its
exceptional reliability and consistency, achieving the lowest variability across diverse linguistic
contexts, while FastPitch demonstrates sophisticated capabilities in pitch and intonation control,
enabling nuanced manipulation of expressive speech characteristics. Statistical analysis
through one-way NOVA confirmed significant differences among models, with post-hoc testing
revealing clear performance hierarchies. This thesis also addresses practical challenges,
including overfitting, data scarcity and hardware constraints.
The research concludes by examining ethical consideration surrounding voice cloning
technology. Future directions are proposed, such as integration with large language models and
applications for cultural preservation of endangered dialects. The findings establish multiple
viable pathways to achieving state-of-the-art synthesis quality, demonstrating that both
architectural innovation and systematic optimization of established frameworks can produce
equivalent results. Overall, this work offers a holistic perspective on the current landscape and
future potential of neural voice cloning, providing actionable insights for both researchers and
practitioners. | el |
| dc.contributor.master | Πληροφορική | el |
| dc.subject.keyword | TTS | el |
| dc.subject.keyword | Neural networks | el |
| dc.subject.keyword | Speech synthesis | el |
| dc.subject.keyword | Deep learning | el |
| dc.subject.keyword | MOS | el |
| dc.subject.keyword | Voice cloning | el |
| dc.date.defense | 2025-09-12 | |