Πλατφόρμα συγκριτικής ανάλυσης μοντέλων ASR για την ελληνική γλώσσα : Whisper vs wav2vec2
Comparative analysis platform for ASR models in Greek language : Whisper vs wav2vec2

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Μοντέλα ASR ; Whisper Large 3 ; wav2vec2 ; Microservices architectureΠερίληψη
Στην παρούσα διπλωματική εργασία αναπτύχθηκε μια διαδικτυακή πλατφόρμα για τη σύγκριση δύο κυρίαρχων μοντέλων αυτόματης αναγνώρισης ομιλίας στην ελληνική γλώσσα: του Whisper large-v3 της OpenAI και του wav2vec2-greek (lighteternal/wav2vec2-large-xlsr-53-greek). Η ελληνική γλώσσα παρουσιάζει ιδιαίτερες δυσκολίες για τα συστήματα ASR λόγω του πολύπλοκου συστήματος διακριτικών σημείων, της εκτεταμένης μορφολογικής παραλλαγής και των περιορισμένων δεδομένων εκπαίδευσης, γεγονός που καθιστά αναγκαία την εξειδικευμένη αξιολόγηση των διαθέσιμων λύσεων.
Η υλοποίηση βασίστηκε σε αρχιτεκτονική microservices αποτελούμενη από επτά ανεξάρτητα services, με προγραμματιζόμενη κατανομή πόρων GPU (60% για το Whisper, 40% για το wav2vec2) ώστε να εξασφαλιστεί δίκαιη σύγκριση. Το frontend αναπτύχθηκε με Angular 19 και PrimeNG, ενώ το backend περιλαμβάνει Flask server με SocketIO για WebSocket επικοινωνία και FastAPI υπηρεσίες για κάθε μοντέλο. Η πλατφόρμα επιτρέπει τη μεταγραφή μέσω ανεβάσματος αρχείων ήχου/βίντεο, εισαγωγής YouTube URLs και ζωντανής ηχογράφησης από τον περιηγητή, παρέχοντας ταυτόχρονα ενημερώσεις προόδου σε πραγματικό χρόνο.
Από τα πειραματικά αποτελέσματα προέκυψε ότι το Whisper διατηρεί σταθερή απόδοση μεταξύ 85% και 90% σε διαφορετικές συνθήκες ηχογράφησης, ενώ το wav2vec2 επιδεικνύει εξαιρετική ακρίβεια σε καθαρό ήχο με μονό ομιλητή, αλλά υποβαθμίζεται σημαντικά σε θορυβώδη περιβάλλοντα ή με πολλαπλούς ομιλητές. Οι βελτιστοποιήσεις που υλοποιήθηκαν για τη διαχείριση των ελληνικών διακριτικών και τη μορφολογική ανάλυση αποδείχθηκαν καθοριστικές για την τελική ακρίβεια των μεταγραφών.


