Εξομοίωση και σύγκριση αλγορίθμων ενισχυτικής μάθησης
Simulation and comparison of reinforcement learning algorithms
Master Thesis
Συγγραφέας
Σπυρόπουλος, Κωνσταντίνος
Ημερομηνία
2022-09Επιβλέπων
Σωτηρόπουλος, ΔιονύσιοςΠροβολή/ Άνοιγμα
Λέξεις κλειδιά
Ενισχυμένη Μάθηση ; NEAT ; Deep Q ; Q learning ; Reinforcement learning ; PythonΠερίληψη
Η Τεχνητή Νοημοσύνη στη σύγχρονη εποχή αποτελεί ένα σημαντικό εργαλείο για την υλοποίηση καινοτόμων ιδεών και την ανάπτυξη πολλών τεχνολογικών εφαρμογών. Ειδικότερα, το κομμάτι της μηχανικής μάθησης προσφέρει μια πληθώρα τεχνικών και αλγορίθμων για την επίλυση προβλημάτων που αντιμετωπίζονται δύσκολα κάνοντας χρήση του κλασσικού προγραμματισμού. Αντίστοιχο πρόβλημα παρουσιάζεται και στην παρούσα εργασία, η οποία αποτελεί μια θεωρητική και πρακτική προσέγγιση στον τομέα της μηχανικής μάθησης και στην εύρεση κατάλληλων τεχνικών για την επίλυσή σύνθετων προβλημάτων.
Η δημιουργία ευφυών τεχνητών πρακτόρων (agents) για την λύση πολύπλοκων προβλημάτων που σχετίζονται με τον άνθρωπο αποτελεί μια μεγάλη πρόκληση για την κοινότητα της τεχνητής νοημοσύνης. Ιδιαίτερα σημαντική είναι η κατανόηση του δυναμικού περιβάλλοντος στο οποίο δρουν και η αλληλεπίδραση τους με αυτό όπως και ο άνθρωπος στον φυσικό κόσμο. Ο τομέας που ειδικεύεται στην δημιουργία τέτοιων agents ονομάζεται Reinforcement Learning. Με τον όρο Reinforcement Learning, αναφερόμαστε στις μεθόδους μέσω των οποίων ένα σύστημα αλγορίθμων ‘μαθαίνει’ να αλληλεπιδρά μέσα σε ένα περιβάλλον δομημένο γύρω από κάποιους ορισμένους κανόνες μετά από δοκιμές και σφάλματα. Η εκμάθηση αυτή γίνεται μέσω της εξερεύνησης του περιβάλλοντος μέσω των πρακτόρων, των ενεργειών και των αντίστοιχων επιβραβεύσεων που δίνονται από αυτό με σκοπό να επιτευχθεί ένας στόχος με την βέλτιστη προσπάθεια.
Η έρευνα αυτή αναπτύχθηκε πάνω στην ιδέα του απλού παιχνιδιού κυνηγητού, με σκοπό την υλοποίηση ενός περιβάλλοντος και των πρακτόρων που θα παίζουν. Στο παιχνίδι αυτό, οι κυνηγοί καλούνται να πιάσουν τους αντίπαλους, ενώ αντίστοιχα οι κυνηγημένοι προσπαθούν να παραμείνουν ελεύθεροι. Στόχος της εργασίας είναι, πέρα από την κατανόηση των κανόνων και την λήψη των σωστών αποφάσεων για την επίτευξη της νίκης, η εύρεση νέων στρατηγικών που θα οδηγήσουν σε βέλτιστα αποτελέσματα αλλά και η σύγκριση δημοφιλών αλγορίθμων ανάλογα με το πρόβλημα.
Οι προτεινόμενες προσεγγίσεις έχουν επιλεγεί μετά από ανάλυση ενός μεγάλου εύρους αλγορίθμων σε Reinforcement Learning σε ένα γραφικό περιβάλλον εξομοίωσης. Τα αποτελέσματα που επιτεύχθηκαν παρουσιάζουν την βέλτιστη τεχνική υλοποίησης, παράλληλα όμως επισημαίνονται και προοπτικές βελτίωσης όσο στον τρόπο λήψεων αποφάσεων αλλά και στην αντιμετώπιση πολυπλοκότερου περιβάλλοντος και κανονισμών του παιχνιδιού.