| dc.contributor.advisor | Χρυσαφιάδη, Κωνσταντίνα | |
| dc.contributor.author | Κυπραίος, Χαρίτων | |
| dc.date.accessioned | 2025-11-24T08:30:47Z | |
| dc.date.available | 2025-11-24T08:30:47Z | |
| dc.date.issued | 2025-10 | |
| dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/18501 | |
| dc.description.abstract | Στην παρούσα διπλωματική εργασία αναπτύχθηκε μια διαδικτυακή πλατφόρμα για τη σύγκριση δύο κυρίαρχων μοντέλων αυτόματης αναγνώρισης ομιλίας στην ελληνική γλώσσα: του Whisper large-v3 της OpenAI και του wav2vec2-greek (lighteternal/wav2vec2-large-xlsr-53-greek). Η ελληνική γλώσσα παρουσιάζει ιδιαίτερες δυσκολίες για τα συστήματα ASR λόγω του πολύπλοκου συστήματος διακριτικών σημείων, της εκτεταμένης μορφολογικής παραλλαγής και των περιορισμένων δεδομένων εκπαίδευσης, γεγονός που καθιστά αναγκαία την εξειδικευμένη αξιολόγηση των διαθέσιμων λύσεων.
Η υλοποίηση βασίστηκε σε αρχιτεκτονική microservices αποτελούμενη από επτά ανεξάρτητα services, με προγραμματιζόμενη κατανομή πόρων GPU (60% για το Whisper, 40% για το wav2vec2) ώστε να εξασφαλιστεί δίκαιη σύγκριση. Το frontend αναπτύχθηκε με Angular 19 και PrimeNG, ενώ το backend περιλαμβάνει Flask server με SocketIO για WebSocket επικοινωνία και FastAPI υπηρεσίες για κάθε μοντέλο. Η πλατφόρμα επιτρέπει τη μεταγραφή μέσω ανεβάσματος αρχείων ήχου/βίντεο, εισαγωγής YouTube URLs και ζωντανής ηχογράφησης από τον περιηγητή, παρέχοντας ταυτόχρονα ενημερώσεις προόδου σε πραγματικό χρόνο.
Από τα πειραματικά αποτελέσματα προέκυψε ότι το Whisper διατηρεί σταθερή απόδοση μεταξύ 85% και 90% σε διαφορετικές συνθήκες ηχογράφησης, ενώ το wav2vec2 επιδεικνύει εξαιρετική ακρίβεια σε καθαρό ήχο με μονό ομιλητή, αλλά υποβαθμίζεται σημαντικά σε θορυβώδη περιβάλλοντα ή με πολλαπλούς ομιλητές. Οι βελτιστοποιήσεις που υλοποιήθηκαν για τη διαχείριση των ελληνικών διακριτικών και τη μορφολογική ανάλυση αποδείχθηκαν καθοριστικές για την τελική ακρίβεια των μεταγραφών. | el |
| dc.format.extent | 87 | el |
| dc.language.iso | el | el |
| dc.publisher | Πανεπιστήμιο Πειραιώς | el |
| dc.rights | Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα | * |
| dc.rights | Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ | * |
| dc.title | Πλατφόρμα συγκριτικής ανάλυσης μοντέλων ASR για την ελληνική γλώσσα : Whisper vs wav2vec2 | el |
| dc.title.alternative | Comparative analysis platform for ASR models in Greek language : Whisper vs wav2vec2 | el |
| dc.type | Master Thesis | el |
| dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
| dc.description.abstractEN | This Master's thesis describes the development of a web-based comparison platform for two leading Automatic Speech Recognition (ASR) models in the Greek language: OpenAI's Whisper large-v3 and wav2vec2-greek (lighteternal/wav2vec2-large-xlsr-53-greek). Greek poses particular challenges for ASR systems due to its complex diacritical marking system, extensive morphological variation, and limited training data availability, making specialized evaluation of available solutions necessary.
The implementation relies on a microservices architecture consisting of seven independent services, with programmable GPU resource allocation (60% for Whisper, 40% for wav2vec2) to ensure fair comparison. The frontend was developed using Angular 19 with PrimeNG, while the backend includes a Flask server with SocketIO for WebSocket communication and FastAPI services for each model. The platform supports transcription through audio/video file uploads, YouTube URL input, and live browser recording, while providing real-time progress updates.
Experimental results showed that Whisper maintains consistent performance between 85% and 90% across different recording conditions, whereas wav2vec2 demonstrates excellent accuracy on clean audio with single speakers but degrades significantly in noisy environments or with multiple speakers. The optimizations implemented for handling Greek diacritics and morphological analysis proved crucial for the final transcription accuracy. | el |
| dc.contributor.master | Πληροφορική | el |
| dc.subject.keyword | Μοντέλα ASR | el |
| dc.subject.keyword | Whisper Large 3 | el |
| dc.subject.keyword | wav2vec2 | el |
| dc.subject.keyword | Microservices architecture | el |
| dc.date.defense | 2025-10-20 | |