Εμφάνιση απλής εγγραφής

Sign language recognition system using MediaPipe and random forest

dc.contributor.advisorSotiropoulos, Dionisios
dc.contributor.advisorΣωτηρόπουλος, Διονύσιος
dc.contributor.authorNemri, Mohamed Munir
dc.date.accessioned2025-02-13T13:50:41Z
dc.date.available2025-02-13T13:50:41Z
dc.date.issued2025-01
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/17466
dc.description.abstractΗ νοηματική γλώσσα αποτελεί ένα ζωτικής σημασίας εργαλείο επικοινωνίας για άτομα με προβλήματα ακοής ή ομιλίας. Ωστόσο, η έλλειψη ευρείας κατανόησης της νοηματικής γλώσσας συχνά δημιουργεί ένα κενό στην επικοινωνία. Η παρούσα έρευνα επικεντρώνεται στην ανάπτυξη ενός συστήματος αναγνώρισης νοηματικής γλώσσας σε πραγματικό χρόνο, χρησιμοποιώντας το MediaPipe για την εξαγωγή χαρακτηριστικών σημείων (landmarks) και τον αλγόριθμο Random Forest για την αναγνώριση χειρονομιών. Ο πρωταρχικός στόχος είναι να γεφυρωθεί το χάσμα επικοινωνίας μέσω της αυτόματης ερμηνείας της νοηματικής γλώσσας. Το έργο αυτό είναι δομημένο σε τέσσερα βασικά στάδια: συλλογή δεδομένων, δημιουργία συνόλου δεδομένων, εκπαίδευση του μοντέλου και δοκιμή/συμπεράσματα. Τα δεδομένα για τη νοηματική γλώσσα συλλέχθηκαν χειροκίνητα μέσω μιας κάμερας web, καταγράφοντας διάφορες χειρονομίες όπως "γειά," "ευχαριστώ" και "αυτοκίνητο." Το MediaPipe χρησιμοποιήθηκε για την εξαγωγή 21 χαρακτηριστικών σημείων από τις εικόνες, μειώνοντας τη διαστατικότητα και εστιάζοντας σε βασικά χαρακτηριστικά για την ταξινόμηση. Τα επεξεργασμένα δεδομένα αποθηκεύτηκαν ως αριθμητικές συντεταγμένες σε συνδυασμό με τις αντίστοιχες ετικέτες. Ο αλγόριθμος Random Forest επιλέχθηκε λόγω της ερμηνευσιμότητας, της ανθεκτικότητας και της υψηλής αποδοτικότητάς του σε μικρού έως μεσαίου μεγέθους σύνολα δεδομένων. Το σύστημα παρουσίασε ενθαρρυντικά αποτελέσματα, με ακρίβεια που ξεπερνά το 90% στο σύνολο δοκιμών, αποδεικνύοντας την προοπτική του για εφαρμογές στον πραγματικό κόσμο. Οι δοκιμές σε πραγματικό χρόνο επιβεβαίωσαν την ικανότητα του μοντέλου να προβλέπει χειρονομίες με ακρίβεια, βασιζόμενο σε ζωντανή βιντεοσκόπηση. Παρά τις προκλήσεις, όπως η ποικιλομορφία των χειρονομιών και οι συνθήκες φωτισμού, η μελέτη αυτή παρέχει μια βάση για μελλοντικές βελτιώσεις, όπως η αναγνώριση δυναμικών χειρονομιών και η ενσωμάτωση επιπλέον χαρακτηριστικών του σώματος. Η έρευνα υπογραμμίζει τη σημασία των εξατομικευμένων συνόλων δεδομένων, των ανθεκτικών μοντέλων μηχανικής μάθησης και των συστημάτων εξαγωγής συμπερασμάτων σε πραγματικό χρόνο για την αντιμετώπιση ζητημάτων προσβασιμότητας. Μελλοντικές εργασίες στοχεύουν στην επέκταση του συνόλου δεδομένων, στην ενσωμάτωση χρονικών δεδομένων για δυναμικές χειρονομίες και στην ανάπτυξη του συστήματος σε φορητές συσκευές για αυξημένη χρηστικότηταel
dc.format.extent56el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleSign language recognition system using MediaPipe and random forestel
dc.title.alternativeΣύστημα αναγνώρισης νοηματικής γλώσσας με χρήση του MediaPipe και του αλγορίθμου random forestel
dc.typeBachelor Dissertationel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENSign language is a vital communication tool for individuals with hearing or speech impairments. However, the lack of widespread understanding of sign language often creates a communication gap. This research focuses on developing a real-time sign language recognition system using MediaPipe for landmark extraction and a Random Forest classifier for gesture recognition. The primary objective is to bridge the communication barrier by enabling automatic sign language interpretation. This project is structured into four key stages: data collection, dataset creation, model training, and testing/inference. Custom sign language data was collected manually using a webcam, capturing various gestures such as "hello," "thanks," and "car." MediaPipe was utilized to extract 21 hand landmarks from the images, reducing dimensionality and focusing on key features for classification. The processed data was stored as numerical coordinates paired with corresponding labels. A Random Forest algorithm was chosen due to its interpretability, robustness, and high efficiency for small to medium-sized datasets. The system achieved promising results, with an accuracy of over 90% on the test dataset, demonstrating its potential for real-world applications. Real-time testing confirmed the model's ability to predict gestures accurately based on live video input. While challenges such as variability in hand gestures and lighting conditions remain, this study provides a foundation for future enhancements, including dynamic gesture recognition and integration of additional body landmarks. This research emphasizes the importance of customized datasets, robust machine learning models, and real-time inference systems in addressing accessibility issues. Future work aims to expand the dataset, incorporate temporal data for dynamic gestures, and deploy the system on portable devices for enhanced usability.el
dc.subject.keywordMachine learningel
dc.subject.keywordMediaPipeel
dc.subject.keywordRandom forest algorithmel
dc.subject.keywordSign language recognitionel
dc.subject.keywordPythonel
dc.date.defense2025-01-31


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»