Εμφάνιση απλής εγγραφής

Πλατφόρμα συγκριτικής ανάλυσης μοντέλων ASR για την ελληνική γλώσσα : Whisper vs wav2vec2

dc.contributor.advisorΧρυσαφιάδη, Κωνσταντίνα
dc.contributor.authorΚυπραίος, Χαρίτων
dc.date.accessioned2025-11-24T08:30:47Z
dc.date.available2025-11-24T08:30:47Z
dc.date.issued2025-10
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/18501
dc.description.abstractΣτην παρούσα διπλωματική εργασία αναπτύχθηκε μια διαδικτυακή πλατφόρμα για τη σύγκριση δύο κυρίαρχων μοντέλων αυτόματης αναγνώρισης ομιλίας στην ελληνική γλώσσα: του Whisper large-v3 της OpenAI και του wav2vec2-greek (lighteternal/wav2vec2-large-xlsr-53-greek). Η ελληνική γλώσσα παρουσιάζει ιδιαίτερες δυσκολίες για τα συστήματα ASR λόγω του πολύπλοκου συστήματος διακριτικών σημείων, της εκτεταμένης μορφολογικής παραλλαγής και των περιορισμένων δεδομένων εκπαίδευσης, γεγονός που καθιστά αναγκαία την εξειδικευμένη αξιολόγηση των διαθέσιμων λύσεων. Η υλοποίηση βασίστηκε σε αρχιτεκτονική microservices αποτελούμενη από επτά ανεξάρτητα services, με προγραμματιζόμενη κατανομή πόρων GPU (60% για το Whisper, 40% για το wav2vec2) ώστε να εξασφαλιστεί δίκαιη σύγκριση. Το frontend αναπτύχθηκε με Angular 19 και PrimeNG, ενώ το backend περιλαμβάνει Flask server με SocketIO για WebSocket επικοινωνία και FastAPI υπηρεσίες για κάθε μοντέλο. Η πλατφόρμα επιτρέπει τη μεταγραφή μέσω ανεβάσματος αρχείων ήχου/βίντεο, εισαγωγής YouTube URLs και ζωντανής ηχογράφησης από τον περιηγητή, παρέχοντας ταυτόχρονα ενημερώσεις προόδου σε πραγματικό χρόνο. Από τα πειραματικά αποτελέσματα προέκυψε ότι το Whisper διατηρεί σταθερή απόδοση μεταξύ 85% και 90% σε διαφορετικές συνθήκες ηχογράφησης, ενώ το wav2vec2 επιδεικνύει εξαιρετική ακρίβεια σε καθαρό ήχο με μονό ομιλητή, αλλά υποβαθμίζεται σημαντικά σε θορυβώδη περιβάλλοντα ή με πολλαπλούς ομιλητές. Οι βελτιστοποιήσεις που υλοποιήθηκαν για τη διαχείριση των ελληνικών διακριτικών και τη μορφολογική ανάλυση αποδείχθηκαν καθοριστικές για την τελική ακρίβεια των μεταγραφών.el
dc.format.extent87el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/gr/*
dc.titleΠλατφόρμα συγκριτικής ανάλυσης μοντέλων ASR για την ελληνική γλώσσα : Whisper vs wav2vec2el
dc.title.alternativeComparative analysis platform for ASR models in Greek language : Whisper vs wav2vec2el
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENThis Master's thesis describes the development of a web-based comparison platform for two leading Automatic Speech Recognition (ASR) models in the Greek language: OpenAI's Whisper large-v3 and wav2vec2-greek (lighteternal/wav2vec2-large-xlsr-53-greek). Greek poses particular challenges for ASR systems due to its complex diacritical marking system, extensive morphological variation, and limited training data availability, making specialized evaluation of available solutions necessary. The implementation relies on a microservices architecture consisting of seven independent services, with programmable GPU resource allocation (60% for Whisper, 40% for wav2vec2) to ensure fair comparison. The frontend was developed using Angular 19 with PrimeNG, while the backend includes a Flask server with SocketIO for WebSocket communication and FastAPI services for each model. The platform supports transcription through audio/video file uploads, YouTube URL input, and live browser recording, while providing real-time progress updates. Experimental results showed that Whisper maintains consistent performance between 85% and 90% across different recording conditions, whereas wav2vec2 demonstrates excellent accuracy on clean audio with single speakers but degrades significantly in noisy environments or with multiple speakers. The optimizations implemented for handling Greek diacritics and morphological analysis proved crucial for the final transcription accuracy.el
dc.contributor.masterΠληροφορικήel
dc.subject.keywordΜοντέλα ASRel
dc.subject.keywordWhisper Large 3el
dc.subject.keywordwav2vec2el
dc.subject.keywordMicroservices architectureel
dc.date.defense2025-10-20


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»