Reinforcement learning : training and evaluation of agents in a graphical environment
Master Thesis
Συγγραφέας
Vintzilaiou, Vasiliki
Βιντζηλαίου, Βασιλική
Ημερομηνία
2025-10Επιβλέπων
Filippakis, MichaelΦιλιππάκης, Μιχαήλ
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Reinforcement learning ; Shared policy ; Agents ; Multi-agent graphic enviromentΠερίληψη
Η παρούσα διπλωματική εργασία διερευνά τη συνεργατική συμπεριφορά στη πολυπρακτορική ενισχυτική μάθηση μέσω μιας προσέγγισης κοινής πολιτικής (shared-policy), βασισμένης στον αλγόριθμο Proximal Policy Optimization (PPO). Η μελέτη χρησιμοποιεί το περιβάλλον Pistonball-v6 ως μελέτη περίπτωσης, όπου πολλαπλοί πράκτορες λειτουργούν υπό συνθήκες μερικής παρατηρησιμότητας και αποκεντρωμένης εκτέλεσης, ενώ ελέγχονται από μία κοινή νευρωνική πολιτική. Στόχος είναι να εξεταστεί πώς αναδύεται ο συντονισμός χωρίς την ύπαρξη μαθημένων καναλιών επικοινωνίας, κεντρικού ελέγχου ή εξειδικευμένων ρόλων ανά πράκτορα.
Η υλοποίηση βασίζεται σε μία συνελικτική αρχιτεκτονική actor–critic, η οποία εκπαιδεύεται με PPO χρησιμοποιώντας parameter sharing μεταξύ όλων των πρακτόρων. Η πειραματική ανάλυση επικεντρώνεται στις επιδράσεις της επιλογής υπερπαραμέτρων, του μήκους των rollouts, της εντροπικής κανονικοποίησης (entropy regularization), των στρατηγικών fine-tuning και της μεθοδολογίας αξιολόγησης. Πολλαπλές διαμορφώσεις εκπαίδευσης και διαφορετικοί τυχαίοι σπόροι (random seeds) αξιολογήθηκαν προκειμένου να εξεταστούν η σταθερότητα και η αναπαραγωγιμότητα της συνεργατικής συμπεριφοράς.
Τα αποτελέσματα δείχνουν ότι μπορεί να αναδυθεί μη τετριμμένος συντονισμός παρά τους ισχυρούς περιορισμούς που επιβάλλονται από τη μερική παρατηρησιμότητα και την αρχιτεκτονική του συστήματος. Ορισμένες διαμορφώσεις κατάφεραν να παράγουν διατηρήσιμη συνεργατική συμπεριφορά και να διατηρούν τη συλλογική μετακίνηση της μπάλας για εκτεταμένα χρονικά διαστήματα. Παράλληλα, τα πειράματα ανέδειξαν σημαντική ευαισθησία στην αρχικοποίηση, στη στοχαστικότητα και στη δυναμική της εκπαίδευσης, με την απόδοση της πολιτικής να παρουσιάζει σημαντικές διακυμάνσεις μεταξύ διαφορετικών seeds και ρυθμίσεων αξιολόγησης. Επιπλέον, στα πειράματά μας, η στοχαστική αξιολόγηση παρήγαγε σταθερά ισχυρότερη και πιο αντιπροσωπευτική συμπεριφορά σε σχέση με την ντετερμινιστική εκτέλεση, γεγονός που υποδηλώνει ότι η στοχαστικότητα ενδέχεται να συμβάλλει στην προσαρμοστικότητα της συμπεριφοράς σε συνεργατικά περιβάλλοντα με μερική παρατηρησιμότητα.
Συνολικά, τα ευρήματα υποδεικνύουν ότι το shared-policy PPO αποτελεί ένα βιώσιμο πλαίσιο για τη μελέτη του συντονισμού στην συνεργατική πολυπρακτορική ενισχυτική μάθηση. Παρότι η προσέγγιση παρουσιάζει σημαντικούς περιορισμούς ως προς τη σταθερότητα και την αναπαραγωγιμότητα, τα αποτελέσματα καταδεικνύουν ότι είναι δυνατό να αναδυθεί ουσιαστική συνεργατική συμπεριφορά μέσω σχετικά απλών shared-policy αρχιτεκτονικών χωρίς την ανάγκη ρητών μηχανισμών επικοινωνίας.

