Πλατφόρμα συγκριτικής ανάλυσης μοντέλων ASR για την ελληνική γλώσσα : Whisper vs wav2vec2

Κυπραίος, Χαρίτων

dc.contributor.advisor	Χρυσαφιάδη, Κωνσταντίνα
dc.contributor.author	Κυπραίος, Χαρίτων
dc.date.accessioned	2025-11-24T08:30:47Z
dc.date.available	2025-11-24T08:30:47Z
dc.date.issued	2025-10
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/18501
dc.description.abstract	Στην παρούσα διπλωματική εργασία αναπτύχθηκε μια διαδικτυακή πλατφόρμα για τη σύγκριση δύο κυρίαρχων μοντέλων αυτόματης αναγνώρισης ομιλίας στην ελληνική γλώσσα: του Whisper large-v3 της OpenAI και του wav2vec2-greek (lighteternal/wav2vec2-large-xlsr-53-greek). Η ελληνική γλώσσα παρουσιάζει ιδιαίτερες δυσκολίες για τα συστήματα ASR λόγω του πολύπλοκου συστήματος διακριτικών σημείων, της εκτεταμένης μορφολογικής παραλλαγής και των περιορισμένων δεδομένων εκπαίδευσης, γεγονός που καθιστά αναγκαία την εξειδικευμένη αξιολόγηση των διαθέσιμων λύσεων. Η υλοποίηση βασίστηκε σε αρχιτεκτονική microservices αποτελούμενη από επτά ανεξάρτητα services, με προγραμματιζόμενη κατανομή πόρων GPU (60% για το Whisper, 40% για το wav2vec2) ώστε να εξασφαλιστεί δίκαιη σύγκριση. Το frontend αναπτύχθηκε με Angular 19 και PrimeNG, ενώ το backend περιλαμβάνει Flask server με SocketIO για WebSocket επικοινωνία και FastAPI υπηρεσίες για κάθε μοντέλο. Η πλατφόρμα επιτρέπει τη μεταγραφή μέσω ανεβάσματος αρχείων ήχου/βίντεο, εισαγωγής YouTube URLs και ζωντανής ηχογράφησης από τον περιηγητή, παρέχοντας ταυτόχρονα ενημερώσεις προόδου σε πραγματικό χρόνο. Από τα πειραματικά αποτελέσματα προέκυψε ότι το Whisper διατηρεί σταθερή απόδοση μεταξύ 85% και 90% σε διαφορετικές συνθήκες ηχογράφησης, ενώ το wav2vec2 επιδεικνύει εξαιρετική ακρίβεια σε καθαρό ήχο με μονό ομιλητή, αλλά υποβαθμίζεται σημαντικά σε θορυβώδη περιβάλλοντα ή με πολλαπλούς ομιλητές. Οι βελτιστοποιήσεις που υλοποιήθηκαν για τη διαχείριση των ελληνικών διακριτικών και τη μορφολογική ανάλυση αποδείχθηκαν καθοριστικές για την τελική ακρίβεια των μεταγραφών.	el
dc.format.extent	87	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/gr/	*
dc.title	Πλατφόρμα συγκριτικής ανάλυσης μοντέλων ASR για την ελληνική γλώσσα : Whisper vs wav2vec2	el
dc.title.alternative	Comparative analysis platform for ASR models in Greek language : Whisper vs wav2vec2	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής	el
dc.description.abstractEN	This Master's thesis describes the development of a web-based comparison platform for two leading Automatic Speech Recognition (ASR) models in the Greek language: OpenAI's Whisper large-v3 and wav2vec2-greek (lighteternal/wav2vec2-large-xlsr-53-greek). Greek poses particular challenges for ASR systems due to its complex diacritical marking system, extensive morphological variation, and limited training data availability, making specialized evaluation of available solutions necessary. The implementation relies on a microservices architecture consisting of seven independent services, with programmable GPU resource allocation (60% for Whisper, 40% for wav2vec2) to ensure fair comparison. The frontend was developed using Angular 19 with PrimeNG, while the backend includes a Flask server with SocketIO for WebSocket communication and FastAPI services for each model. The platform supports transcription through audio/video file uploads, YouTube URL input, and live browser recording, while providing real-time progress updates. Experimental results showed that Whisper maintains consistent performance between 85% and 90% across different recording conditions, whereas wav2vec2 demonstrates excellent accuracy on clean audio with single speakers but degrades significantly in noisy environments or with multiple speakers. The optimizations implemented for handling Greek diacritics and morphological analysis proved crucial for the final transcription accuracy.	el
dc.contributor.master	Πληροφορική	el
dc.subject.keyword	Μοντέλα ASR	el
dc.subject.keyword	Whisper Large 3	el
dc.subject.keyword	wav2vec2	el
dc.subject.keyword	Microservices architecture	el
dc.date.defense	2025-10-20

Files in this item

Name:: Kypraios_MPPL21042.pdf
Size:: 9.450Mb
Format:: PDF
Description:: Μεταπτυχιακή διατριβή

View/Open

This item appears in the following Collection(s)

Τμήμα Πληροφορικής
Department of Informatics

Show simple item record

Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα