Sign language recognition in video sequences of single words

Nikolopoulos, Konstantinos; Νικολόπουλος, Κωνσταντίνος

Master Thesis

Συγγραφέας

Nikolopoulos, Konstantinos

Νικολόπουλος, Κωνσταντίνος

Ημερομηνία

2024-02

Περίληψη

Στόχος αυτής της διατριβής είναι να διερευνήσει τις προκλήσεις του προβλήματος Αναγνώρισης Χειρονομιών Νοηματικής Γλώσσας, και να προτείνει ένα ακριβές μοντέλο Μηχανικής Μάθησης για την Αναγνώριση Χειρονομιών Νοηματικής σε ακολουθίες βίντεο μεμονωμένων λέξεων. Η Αναγνώριση Χειρονομιών Νοηματικής έχει ιδιαίτερη σημασία καθώς αντιμετωπίζει τα εμπόδια επικοινωνίας μεταξύ ατόμων με αναπηρία ακοής ή δυσκολίες στο λόγο και τον γενικό πληθυσμό. Ωστόσο, οι υπάρχουσες μέθοδοι αντιμετωπίζουν αρκετούς περιορισμούς. Πολλές από τις προτεινόμενες λύσεις βασίζονται σε τεχνικές αναγνώρισης εικόνας, ενώ άλλες απαιτούν τη χρήση γαντιών πολλαπλών χρωμάτων/αισθητήρων ή καμερών με συγκεκριμένες προδιαγραφές. Η μελέτη αυτή προτείνει ένα απλό σύστημα που δεν απαιτεί εξειδικευμένο εξοπλισμό, αλλά παραμένει ανθεκτικό σε διακυμάνσεις των χαρακτηριστικών των ομιλητών, όπως η απόχρωση του δέρματος, το φύλο και το μέγεθος του σώματος. Το σύστημα αυτό, που δεν εξαρτάται από τον ομιλητή, αποτελείται από τέσσερα κύρια βήματα. Αρχικά, συλλέχθηκε ένα σύνολο δεδομένων, και δημιουργήθηκαν τρεις συλλογές λέξεων (20, 100 και 300 λέξεις) που είναι ισορροπημένο και με υψηλή ποικιλομορφία. Για αυτόν τον λόγο, επιλέχθηκε το "WLASL: A large-scale dataset for Word-Level American Sign Language ". Στη συνέχεια, εξήχθησαν χαρακτηριστικά χεριών από τα βίντεο χρησιμοποιώντας βιβλιοθήκες πραγματικού χρόνου βελτιστοποιημένης Υπολογιστικής Όρασης, και μεθόδων Μηχανικής Μάθησης. Τα εργαλεία που επιλέχθηκαν είναι κυρίως το Mediapipe και το OpenCV. Έπειτα, εφαρμόστηκαν τεχνικές data augmentation και αντιστοίχισης δυναμικού χρόνου (Dynamic Time Wrapping) στα δεδομένα για να βελτιωθεί η απόδοσή του. Τέλος, εκπαιδεύτηκαν μοντέλα Συνελικτικών Νευρωνικών Δικτύων (CNN), Αναδρομικών Νευρωνικών Δικτύων (RNN) και συνδυασμοί των δύο. Τα πειράματα έδειξαν ότι η προτεινόμενη προσέγγιση προσφέρει εξαιρετικά αποτελέσματα, ειδικά για τα μοντέλα CNN, φτάνοντας έως και 98% ακρίβεια για ένα σύνολο δεδομένων 100 λέξεων ή 97% για ένα σύνολο δεδομένων 300 λέξεων.

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Πληροφοριακά Συστήματα και Υπηρεσίες

Τμήμα

Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων

Αριθμός σελίδων

113

Γλώσσα

Αγγλικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/17481

Συλλογή

Τμήμα Ψηφιακών Συστημάτων

Εμφάνιση πλήρους εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα