dc.contributor.advisor | Maglogiannis, Ilias | |
dc.contributor.advisor | Μαγκλογιάννης, Ηλίας | |
dc.contributor.author | Nikolopoulos, Konstantinos | |
dc.contributor.author | Νικολόπουλος, Κωνσταντίνος | |
dc.date.accessioned | 2025-02-18T12:49:54Z | |
dc.date.available | 2025-02-18T12:49:54Z | |
dc.date.issued | 2024-02 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/17481 | |
dc.description.abstract | Στόχος αυτής της διατριβής είναι να διερευνήσει τις προκλήσεις του προβλήματος Αναγνώρισης Χειρονομιών Νοηματικής Γλώσσας, και να προτείνει ένα ακριβές μοντέλο Μηχανικής Μάθησης για την Αναγνώριση Χειρονομιών Νοηματικής σε ακολουθίες βίντεο μεμονωμένων λέξεων. Η Αναγνώριση Χειρονομιών Νοηματικής έχει ιδιαίτερη σημασία καθώς αντιμετωπίζει τα εμπόδια επικοινωνίας μεταξύ ατόμων με αναπηρία ακοής ή δυσκολίες στο λόγο και τον γενικό πληθυσμό. Ωστόσο, οι υπάρχουσες μέθοδοι αντιμετωπίζουν αρκετούς περιορισμούς. Πολλές από τις προτεινόμενες λύσεις βασίζονται σε τεχνικές αναγνώρισης εικόνας, ενώ άλλες απαιτούν τη χρήση γαντιών πολλαπλών χρωμάτων/αισθητήρων ή καμερών με συγκεκριμένες προδιαγραφές. Η μελέτη αυτή προτείνει ένα απλό σύστημα που δεν απαιτεί εξειδικευμένο εξοπλισμό, αλλά παραμένει ανθεκτικό σε διακυμάνσεις των χαρακτηριστικών των ομιλητών, όπως η απόχρωση του δέρματος, το φύλο και το μέγεθος του σώματος. Το σύστημα αυτό, που δεν εξαρτάται από τον ομιλητή, αποτελείται από τέσσερα κύρια βήματα. Αρχικά, συλλέχθηκε ένα σύνολο δεδομένων, και δημιουργήθηκαν τρεις συλλογές λέξεων (20, 100 και 300 λέξεις) που είναι ισορροπημένο και με υψηλή ποικιλομορφία. Για αυτόν τον λόγο, επιλέχθηκε το "WLASL: A large-scale dataset for Word-Level American Sign Language ". Στη συνέχεια, εξήχθησαν χαρακτηριστικά χεριών από τα βίντεο χρησιμοποιώντας βιβλιοθήκες πραγματικού χρόνου βελτιστοποιημένης Υπολογιστικής Όρασης, και μεθόδων Μηχανικής Μάθησης. Τα εργαλεία που επιλέχθηκαν είναι κυρίως το Mediapipe και το OpenCV. Έπειτα, εφαρμόστηκαν τεχνικές data augmentation και αντιστοίχισης δυναμικού χρόνου (Dynamic Time Wrapping) στα δεδομένα για να βελτιωθεί η απόδοσή του. Τέλος, εκπαιδεύτηκαν μοντέλα Συνελικτικών Νευρωνικών Δικτύων (CNN), Αναδρομικών Νευρωνικών Δικτύων (RNN) και συνδυασμοί των δύο. Τα πειράματα έδειξαν ότι η προτεινόμενη προσέγγιση προσφέρει εξαιρετικά αποτελέσματα, ειδικά για τα μοντέλα CNN, φτάνοντας έως και 98% ακρίβεια για ένα σύνολο δεδομένων 100 λέξεων ή 97% για ένα σύνολο δεδομένων 300 λέξεων. | el |
dc.format.extent | 113 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Sign language recognition in video sequences of single words | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | The goal of this thesis is to explore the challenges of the Sign Language Recognition (SLR) problem, and suggest an accurate Machine Learning (ML) model for SLR in video sequences of single words. SLR holds significant importance as it addresses the communication barriers between individuals with hearing impairments or speech impediments and the general population. However, the existing methods face various constraints. Many proposed solutions rely on image-based recognition, while others require the use of multi-colored/sensor-based gloves or specific cameras. This study proposes a straightforward system that does not require specific accessories, yet remains highly resilient to variations in test subjects such as skin tone, gender, and body size. This signer-independent system consists of four main steps. Firstly, a dataset was gathered for three target corpus sizes (20, 100 and 300 words) that is both balanced and with high variability. For that reason, the "WLASL: A large-scale dataset for Word-Level American Sign Language" was selected. Then arm and hand features were extracted from the videos using real-time optimized Computer Vision libraries, frameworks and Machine Learning (ML) solutions. The tools of choice are mainly Mediapipe and OpenCV. Afterwards, data augmentation and dynamic time wrapping techniques were applied to the data to improve performance and invariance. Finaly, a selection of Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN) and combinations of the two were trained. The experiments showed that the proposed approach wields excellent results especially for the CNN models, reaching up to 98% accuracy for a corpus size of 100 words or 97% for a corpus size of 300 words. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | SLR | el |
dc.subject.keyword | CNN | el |
dc.subject.keyword | Gesture recognition | el |
dc.subject.keyword | Sign language | el |
dc.date.defense | 2024-02-29 | |