Sign language recognition system using MediaPipe and random forest

Nemri, Mohamed Munir

Σύστημα αναγνώρισης νοηματικής γλώσσας με χρήση του MediaPipe και του αλγορίθμου random forest

Bachelor Dissertation

Συγγραφέας

Nemri, Mohamed Munir

Ημερομηνία

2025-01

Περίληψη

Η νοηματική γλώσσα αποτελεί ένα ζωτικής σημασίας εργαλείο επικοινωνίας για άτομα με προβλήματα ακοής ή ομιλίας. Ωστόσο, η έλλειψη ευρείας κατανόησης της νοηματικής γλώσσας συχνά δημιουργεί ένα κενό στην επικοινωνία. Η παρούσα έρευνα επικεντρώνεται στην ανάπτυξη ενός συστήματος αναγνώρισης νοηματικής γλώσσας σε πραγματικό χρόνο, χρησιμοποιώντας το MediaPipe για την εξαγωγή χαρακτηριστικών σημείων (landmarks) και τον αλγόριθμο Random Forest για την αναγνώριση χειρονομιών. Ο πρωταρχικός στόχος είναι να γεφυρωθεί το χάσμα επικοινωνίας μέσω της αυτόματης ερμηνείας της νοηματικής γλώσσας. Το έργο αυτό είναι δομημένο σε τέσσερα βασικά στάδια: συλλογή δεδομένων, δημιουργία συνόλου δεδομένων, εκπαίδευση του μοντέλου και δοκιμή/συμπεράσματα. Τα δεδομένα για τη νοηματική γλώσσα συλλέχθηκαν χειροκίνητα μέσω μιας κάμερας web, καταγράφοντας διάφορες χειρονομίες όπως "γειά," "ευχαριστώ" και "αυτοκίνητο." Το MediaPipe χρησιμοποιήθηκε για την εξαγωγή 21 χαρακτηριστικών σημείων από τις εικόνες, μειώνοντας τη διαστατικότητα και εστιάζοντας σε βασικά χαρακτηριστικά για την ταξινόμηση. Τα επεξεργασμένα δεδομένα αποθηκεύτηκαν ως αριθμητικές συντεταγμένες σε συνδυασμό με τις αντίστοιχες ετικέτες. Ο αλγόριθμος Random Forest επιλέχθηκε λόγω της ερμηνευσιμότητας, της ανθεκτικότητας και της υψηλής αποδοτικότητάς του σε μικρού έως μεσαίου μεγέθους σύνολα δεδομένων. Το σύστημα παρουσίασε ενθαρρυντικά αποτελέσματα, με ακρίβεια που ξεπερνά το 90% στο σύνολο δοκιμών, αποδεικνύοντας την προοπτική του για εφαρμογές στον πραγματικό κόσμο. Οι δοκιμές σε πραγματικό χρόνο επιβεβαίωσαν την ικανότητα του μοντέλου να προβλέπει χειρονομίες με ακρίβεια, βασιζόμενο σε ζωντανή βιντεοσκόπηση. Παρά τις προκλήσεις, όπως η ποικιλομορφία των χειρονομιών και οι συνθήκες φωτισμού, η μελέτη αυτή παρέχει μια βάση για μελλοντικές βελτιώσεις, όπως η αναγνώριση δυναμικών χειρονομιών και η ενσωμάτωση επιπλέον χαρακτηριστικών του σώματος. Η έρευνα υπογραμμίζει τη σημασία των εξατομικευμένων συνόλων δεδομένων, των ανθεκτικών μοντέλων μηχανικής μάθησης και των συστημάτων εξαγωγής συμπερασμάτων σε πραγματικό χρόνο για την αντιμετώπιση ζητημάτων προσβασιμότητας. Μελλοντικές εργασίες στοχεύουν στην επέκταση του συνόλου δεδομένων, στην ενσωμάτωση χρονικών δεδομένων για δυναμικές χειρονομίες και στην ανάπτυξη του συστήματος σε φορητές συσκευές για αυξημένη χρηστικότητα

Τμήμα

Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής

Αριθμός σελίδων

Γλώσσα

Αγγλικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/17466

Συλλογή

Τμήμα Πληροφορικής

Εμφάνιση πλήρους εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα