Αναγνώριση χειρονομιών σε βίντεο πραγματικού χρόνου με αλγορίθμους μηχανικής μάθησης και βαθιάς μάθησης
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Μηχανική μάθηση ; Βαθιά μάθηση ; Υπολογιστική όραση ; Αναγνώριση χειρονομιώνΠερίληψη
Η Υπολογιστική Όραση και η Μηχανική Μάθηση είναι δύο μεγάλοι κλάδοι της Τεχνητής Νοημοσύνης που συνδυαστικά έχουν δώσει στα υπολογιστικά συστήματα την ικανότητα της τεχνητής όρασης και της αντίληψης. Πλέον, είναι εφικτή η αλληλεπίδραση ανθρώπου-υπολογιστή μέσω καμερών καθώς και η οπτική ανάλυση της ανθρώπινης συμπεριφοράς. Το αντικείμενο της παρούσας εργασίας είναι η υλοποίηση ενός συστήματος για την αυτόματη αναγνώριση στατικών χειρονομιών σε ακολουθίες βίντεο πραγματικού χρόνου, μέσω καμερών, χρησιμοποιώντας σύγχρονες τεχνικές και αλγορίθμους της κλασσικής Μηχανικής Μάθησης και της Βαθιάς Μάθησης.
Αρχικά γίνεται μια εισαγωγή στην Υπολογιστική Όραση και στις εφαρμογές της και περιγράφουμε το πρόβλημα της αναγνώρισης χειρονομιών. Έπειτα αναφερόμαστε στο πεδίο της Μηχανικής Μάθησης και στα είδη των προβλημάτων που πραγματεύεται. Περιγράφουμε τον τρόπο εκπαίδευσης ενός μοντέλου και τρόπους αξιολόγησης της απόδοσής του εστιάζοντας στην επίλυση προβλημάτων Κατηγοριοποίησης. Στη συνέχεια, κάνουμε μια εισαγωγή στη Βαθιά Μάθηση και στα Τεχνητά Νευρωνικά Δίκτυα. Αναφέρουμε τις βασικές αρχιτεκτονικές δικτύων που χρησιμοποιούνται σήμερα και τη διαδικασία εκπαίδευσης ενός Νευρωνικού Δικτύου καθώς και τεχνικές βελτιστοποίησής του. Επίσης, γίνεται αναφορά στη χρήση Συνελικτικών Νευρωνικών Δικτύων για την επίλυση προβλημάτων Υπολογιστικής Όρασης και παρουσιάζουμε κάποιους γνωστούς αλγορίθμους.
Τέλος, παρουσιάζεται η υλοποίηση ενός συστήματος αναγνώρισης στατικών χειρονομιών, χρησιμοποιώντας τη γλώσσα προγραμματισμού Python. Εφαρμόζουμε καινοτόμους αλγορίθμους με συνελικτικά νευρωνικά δίκτυα για την αναγνώριση σημείων του σκελετού του χεριού και στη συνέχεια εκπαιδεύουμε Μηχανές Διανυσμάτων Υποστήριξης και Νευρωνικά Δίκτυα Εμπρόσθιας Τροφοδότησης, για να κατηγοριοποιήσουμε τα σημεία αυτά ανάμεσα σε προκαθορισμένες στατικές χειρονομίες. Η υλοποίηση προορίζεται για εφαρμογές πραγματικού χρόνου, χρησιμοποιεί μόνο τον επεξεργαστή του υπολογιστή και λειτουργεί με απλές κάμερες RGB.