Reinforcement learning : training and evaluation of agents in a graphical environment

Vintzilaiou, Vasiliki; Βιντζηλαίου, Βασιλική

Master Thesis

Συγγραφέας

Vintzilaiou, Vasiliki

Βιντζηλαίου, Βασιλική

Ημερομηνία

2025-10

Περίληψη

Η παρούσα διπλωματική εργασία διερευνά τη συνεργατική συμπεριφορά στη πολυπρακτορική ενισχυτική μάθηση μέσω μιας προσέγγισης κοινής πολιτικής (shared-policy), βασισμένης στον αλγόριθμο Proximal Policy Optimization (PPO). Η μελέτη χρησιμοποιεί το περιβάλλον Pistonball-v6 ως μελέτη περίπτωσης, όπου πολλαπλοί πράκτορες λειτουργούν υπό συνθήκες μερικής παρατηρησιμότητας και αποκεντρωμένης εκτέλεσης, ενώ ελέγχονται από μία κοινή νευρωνική πολιτική. Στόχος είναι να εξεταστεί πώς αναδύεται ο συντονισμός χωρίς την ύπαρξη μαθημένων καναλιών επικοινωνίας, κεντρικού ελέγχου ή εξειδικευμένων ρόλων ανά πράκτορα. Η υλοποίηση βασίζεται σε μία συνελικτική αρχιτεκτονική actor–critic, η οποία εκπαιδεύεται με PPO χρησιμοποιώντας parameter sharing μεταξύ όλων των πρακτόρων. Η πειραματική ανάλυση επικεντρώνεται στις επιδράσεις της επιλογής υπερπαραμέτρων, του μήκους των rollouts, της εντροπικής κανονικοποίησης (entropy regularization), των στρατηγικών fine-tuning και της μεθοδολογίας αξιολόγησης. Πολλαπλές διαμορφώσεις εκπαίδευσης και διαφορετικοί τυχαίοι σπόροι (random seeds) αξιολογήθηκαν προκειμένου να εξεταστούν η σταθερότητα και η αναπαραγωγιμότητα της συνεργατικής συμπεριφοράς. Τα αποτελέσματα δείχνουν ότι μπορεί να αναδυθεί μη τετριμμένος συντονισμός παρά τους ισχυρούς περιορισμούς που επιβάλλονται από τη μερική παρατηρησιμότητα και την αρχιτεκτονική του συστήματος. Ορισμένες διαμορφώσεις κατάφεραν να παράγουν διατηρήσιμη συνεργατική συμπεριφορά και να διατηρούν τη συλλογική μετακίνηση της μπάλας για εκτεταμένα χρονικά διαστήματα. Παράλληλα, τα πειράματα ανέδειξαν σημαντική ευαισθησία στην αρχικοποίηση, στη στοχαστικότητα και στη δυναμική της εκπαίδευσης, με την απόδοση της πολιτικής να παρουσιάζει σημαντικές διακυμάνσεις μεταξύ διαφορετικών seeds και ρυθμίσεων αξιολόγησης. Επιπλέον, στα πειράματά μας, η στοχαστική αξιολόγηση παρήγαγε σταθερά ισχυρότερη και πιο αντιπροσωπευτική συμπεριφορά σε σχέση με την ντετερμινιστική εκτέλεση, γεγονός που υποδηλώνει ότι η στοχαστικότητα ενδέχεται να συμβάλλει στην προσαρμοστικότητα της συμπεριφοράς σε συνεργατικά περιβάλλοντα με μερική παρατηρησιμότητα. Συνολικά, τα ευρήματα υποδεικνύουν ότι το shared-policy PPO αποτελεί ένα βιώσιμο πλαίσιο για τη μελέτη του συντονισμού στην συνεργατική πολυπρακτορική ενισχυτική μάθηση. Παρότι η προσέγγιση παρουσιάζει σημαντικούς περιορισμούς ως προς τη σταθερότητα και την αναπαραγωγιμότητα, τα αποτελέσματα καταδεικνύουν ότι είναι δυνατό να αναδυθεί ουσιαστική συνεργατική συμπεριφορά μέσω σχετικά απλών shared-policy αρχιτεκτονικών χωρίς την ανάγκη ρητών μηχανισμών επικοινωνίας.

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Πληροφοριακά Συστήματα και Υπηρεσίες

Τμήμα

Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων

Αριθμός σελίδων

Γλώσσα

Αγγλικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/19389

Συλλογή

Τμήμα Ψηφιακών Συστημάτων

Εμφάνιση πλήρους εγγραφής