Ενισχυτική μάθηση - Ms Pacman
Reinforcement learning - Ms Pacman
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ενισχυτική μάθηση ; Deep Q-Network ; Batch normalization ; Duel DQN ; Noisy DQN ; Prioritized experience buffer ; Ηλεκτρονικά παιχνίδια ; Εκπαίδευση ; Google Colab ; GPU ; MsPacman ; Python ; PyTorch ; Παιχνίδι Arcade ; Πράκτορας ; AzureΠερίληψη
Η παρούσα διπλωματική εργασία εξετάζει την εφαρμογή της ενισχυτικής μάθησης για την εκπαίδευση πρακτόρων σε ηλεκτρονικά παιχνίδια. Σκοπός της έρευνας είναι να διερευνηθεί η απόδοση και η αποτελεσματικότητα διάφορων παραλλαγών του αλγορίθμου Deep Q-Network (DQN) σε περιβάλλοντα παιχνιδιών arcade.
Στην εργασία αυτή, αρχικά παρουσιάζονται οι βασικές έννοιες της ενισχυτικής μάθησης, συμπεριλαμβανομένων των πολιτικών, των συναρτήσεων ανταμοιβής και αξίας, και των μοντέλων περιβάλλοντος. Στη συνέχεια, αναλύονται οι θεωρητικές αρχές των αλγορίθμων DQN και οι επεκτάσεις τους, όπως το DQN με batch normalization, το Duel DQN, το Noisy DQN, και το Double DQN με Prioritized Experience Buffer.
Τα πειραματικά αποτελέσματα δείχνουν ότι κάθε παραλλαγή προσφέρει συγκεκριμένα πλεονεκτήματα στην εκπαίδευση των πρακτόρων. Οι πράκτορες που εκπαιδεύτηκαν με τις παραλλαγές του DQN παρουσίασαν βελτίωση στη μέση ανταμοιβή, στο σκορ και στην ταχύτητα εκπαίδευσης σε σχέση με τον βασικό αλγόριθμο DQN. Ειδικότερα, ο πράκτορας με Prioritized Experience Buffer και Double DQN εμφάνισε την καλύτερη συνολική απόδοση, επιτυγχάνοντας την υψηλότερη μέση ανταμοιβή και σκορ.
Η εργασία καταλήγει στο συμπέρασμα ότι η ενισχυτική μάθηση και οι προσαρμογές των αλγορίθμων DQN μπορούν να εφαρμοστούν αποτελεσματικά για την εκπαίδευση πρακτόρων σε δυναμικά και σύνθετα περιβάλλοντα, όπως τα ηλεκτρονικά παιχνίδια. Η θεωρητική ανάλυση και τα πειραματικά αποτελέσματα υποδεικνύουν τη σημαντική συμβολή των τεχνικών βελτιστοποίησης στη βελτίωση της αποδοτικότητας και της απόδοσης των πρακτόρων.