dc.contributor.advisor | Φιλιππάκης, Μιχαήλ | |
dc.contributor.author | Αθανασοπούλου, Ζωή Ιωάννα | |
dc.date.accessioned | 2024-11-26T12:33:40Z | |
dc.date.available | 2024-11-26T12:33:40Z | |
dc.date.issued | 2024-06 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/17121 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/4544 | |
dc.description.abstract | Η παρούσα διπλωματική εργασία εξετάζει την εφαρμογή της ενισχυτικής μάθησης για την εκπαίδευση πρακτόρων σε ηλεκτρονικά παιχνίδια. Σκοπός της έρευνας είναι να διερευνηθεί η απόδοση και η αποτελεσματικότητα διάφορων παραλλαγών του αλγορίθμου Deep Q-Network (DQN) σε περιβάλλοντα παιχνιδιών arcade.
Στην εργασία αυτή, αρχικά παρουσιάζονται οι βασικές έννοιες της ενισχυτικής μάθησης, συμπεριλαμβανομένων των πολιτικών, των συναρτήσεων ανταμοιβής και αξίας, και των μοντέλων περιβάλλοντος. Στη συνέχεια, αναλύονται οι θεωρητικές αρχές των αλγορίθμων DQN και οι επεκτάσεις τους, όπως το DQN με batch normalization, το Duel DQN, το Noisy DQN, και το Double DQN με Prioritized Experience Buffer.
Τα πειραματικά αποτελέσματα δείχνουν ότι κάθε παραλλαγή προσφέρει συγκεκριμένα πλεονεκτήματα στην εκπαίδευση των πρακτόρων. Οι πράκτορες που εκπαιδεύτηκαν με τις παραλλαγές του DQN παρουσίασαν βελτίωση στη μέση ανταμοιβή, στο σκορ και στην ταχύτητα εκπαίδευσης σε σχέση με τον βασικό αλγόριθμο DQN. Ειδικότερα, ο πράκτορας με Prioritized Experience Buffer και Double DQN εμφάνισε την καλύτερη συνολική απόδοση, επιτυγχάνοντας την υψηλότερη μέση ανταμοιβή και σκορ.
Η εργασία καταλήγει στο συμπέρασμα ότι η ενισχυτική μάθηση και οι προσαρμογές των αλγορίθμων DQN μπορούν να εφαρμοστούν αποτελεσματικά για την εκπαίδευση πρακτόρων σε δυναμικά και σύνθετα περιβάλλοντα, όπως τα ηλεκτρονικά παιχνίδια. Η θεωρητική ανάλυση και τα πειραματικά αποτελέσματα υποδεικνύουν τη σημαντική συμβολή των τεχνικών βελτιστοποίησης στη βελτίωση της αποδοτικότητας και της απόδοσης των πρακτόρων. | el |
dc.format.extent | 91 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Ενισχυτική μάθηση - Ms Pacman | el |
dc.title.alternative | Reinforcement learning - Ms Pacman | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | This thesis explores the application of reinforcement learning for training agents in video games. The
purpose of the research is to investigate the performance and effectiveness of various Deep Q-Net
work (DQN) algorithm variations in arcade game environments.
Initially, the thesis presents the basic concepts of reinforcement learning, including policies, reward
functions, value functions, and environment models. Then, it analyzes the theoretical principles of
DQN algorithms and their extensions, such as DQN with batch normalization, Duel DQN, Noisy DQN,
and Double DQN with Prioritized Experience Buffer.
Experimental results show that each variation offers specific advantages in agent training. Agents
trained with the DQN variations showed improvements in average reward, score, and training speed
compared to the basic DQN algorithm. Specifically, the agent with Prioritized Experience Buffer and
Double DQN demonstrated the best overall performance, achieving the highest average reward and
score.
The thesis concludes that reinforcement learning and the adaptations of DQN algorithms can be ef
fectively applied to train agents in dynamic and complex environments, such as video games. The
theoretical analysis and experimental results highlight the significant contribution of optimization
techniques in improving the efficiency and performance of the agents. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | Ενισχυτική μάθηση | el |
dc.subject.keyword | Deep Q-Network | el |
dc.subject.keyword | Batch normalization | el |
dc.subject.keyword | Duel DQN | el |
dc.subject.keyword | Noisy DQN | el |
dc.subject.keyword | Prioritized experience buffer | el |
dc.subject.keyword | Ηλεκτρονικά παιχνίδια | el |
dc.subject.keyword | Εκπαίδευση | el |
dc.subject.keyword | Google Colab | el |
dc.subject.keyword | GPU | el |
dc.subject.keyword | MsPacman | el |
dc.subject.keyword | Python | el |
dc.subject.keyword | PyTorch | el |
dc.subject.keyword | Παιχνίδι Arcade | el |
dc.subject.keyword | Πράκτορας | el |
dc.subject.keyword | Azure | el |
dc.date.defense | 2024-06-23 | |