Pose-based deep learning approaches for recognizing isolated signs in Greek sign language

Master Thesis
Συγγραφέας
Skourogiannis, Konstantinos
Σκουρογιάννης, Κωνσταντίνος
Ημερομηνία
2025-09Επιβλέπων
Maglogiannis, IliasΜαγκλογιάννης, Ηλίας
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Greek Sign Language (GSL) ; Sign language recognition ; Isolated gloss recognition ; Hand skeletal landmarks ; Sequence classification ; Deep learning ; Long short-term memory ; Graph convolutional networksΠερίληψη
Η παρούσα εργασία εξετάζει το πρόβλημα της αναγνώρισης απομονωμένων συμβόλων στην Ελληνική Νοηματική Γλώσσα (ΕΝΓ) με χρήση βαθιάς μάθησης. Η ΕΝΓ, όπως και πολλές νοηματικές γλώσσες, στερείται μεγάλων επισημειωμένων συνόλων δεδομένων, γεγονός που καθιστά την αυτόματη αναγνώριση απαιτητική. Για την αντιμετώπιση αυτού του ζητήματος χρησιμοποιούμε το δημόσια διαθέσιμο σύνολο δεδομένων GSL RGB+D, το οποίο περιέχει επισημειωμένες βιντεοσκοπήσεις που καταγράφηκαν με κάμερα βάθους Intel RealSense. Υλοποιούμε και αξιολογούμε τρεις διακριτές νευρωνικές αρχιτεκτονικές: Συνελικτικό Νευρωνικό Δίκτυο (CNN), δίκτυο Long Short-Term Memory (LSTM) και Συνελικτικό Δίκτυο σε Γράφους (GCN). Κάθε μοντέλο έχει σχεδιαστεί ώστε να χειρίζεται διαφορετικά χαρακτηριστικά των δεδομένων της νοηματικής γλώσσας: οπτικά, χρονικά και χωρικά. Τα πειράματά μας, που πραγματοποιήθηκαν στο υποσύνολο των απομονωμένων gloss (ετικετών συμβόλων) του συνόλου δεδομένων, δείχνουν ότι το μοντέλο LSTM επιτυγχάνει τη μεγαλύτερη συνολική ακρίβεια, ενώ τα μοντέλα CNN και GCN επιδεικνύουν ενισχυμένη επίδοση σε συγκεκριμένες κατηγορίες. Τα ευρήματα υπογραμμίζουν τη σημασία της χρονικής και δομικής πληροφορίας στην αναγνώριση νοημάτων. Η εργασία συνεισφέρει μια συγκριτική μελέτη μοντέλων αναγνώρισης, προσαρμοσμένων στην Ελληνική Νοηματική Γλώσσα και αναδεικνύει το δυναμικό τους σε περιβάλλοντα περιορισμένων πόρων.