Reinforcement learning : training and evaluation of agents in a graphical environment

Vintzilaiou, Vasiliki; Βιντζηλαίου, Βασιλική

dc.contributor.advisor	Filippakis, Michael
dc.contributor.advisor	Φιλιππάκης, Μιχαήλ
dc.contributor.author	Vintzilaiou, Vasiliki
dc.contributor.author	Βιντζηλαίου, Βασιλική
dc.date.accessioned	2026-05-27T08:10:32Z
dc.date.available	2026-05-27T08:10:32Z
dc.date.issued	2025-10
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/19389
dc.description.abstract	Η παρούσα διπλωματική εργασία διερευνά τη συνεργατική συμπεριφορά στη πολυπρακτορική ενισχυτική μάθηση μέσω μιας προσέγγισης κοινής πολιτικής (shared-policy), βασισμένης στον αλγόριθμο Proximal Policy Optimization (PPO). Η μελέτη χρησιμοποιεί το περιβάλλον Pistonball-v6 ως μελέτη περίπτωσης, όπου πολλαπλοί πράκτορες λειτουργούν υπό συνθήκες μερικής παρατηρησιμότητας και αποκεντρωμένης εκτέλεσης, ενώ ελέγχονται από μία κοινή νευρωνική πολιτική. Στόχος είναι να εξεταστεί πώς αναδύεται ο συντονισμός χωρίς την ύπαρξη μαθημένων καναλιών επικοινωνίας, κεντρικού ελέγχου ή εξειδικευμένων ρόλων ανά πράκτορα. Η υλοποίηση βασίζεται σε μία συνελικτική αρχιτεκτονική actor–critic, η οποία εκπαιδεύεται με PPO χρησιμοποιώντας parameter sharing μεταξύ όλων των πρακτόρων. Η πειραματική ανάλυση επικεντρώνεται στις επιδράσεις της επιλογής υπερπαραμέτρων, του μήκους των rollouts, της εντροπικής κανονικοποίησης (entropy regularization), των στρατηγικών fine-tuning και της μεθοδολογίας αξιολόγησης. Πολλαπλές διαμορφώσεις εκπαίδευσης και διαφορετικοί τυχαίοι σπόροι (random seeds) αξιολογήθηκαν προκειμένου να εξεταστούν η σταθερότητα και η αναπαραγωγιμότητα της συνεργατικής συμπεριφοράς. Τα αποτελέσματα δείχνουν ότι μπορεί να αναδυθεί μη τετριμμένος συντονισμός παρά τους ισχυρούς περιορισμούς που επιβάλλονται από τη μερική παρατηρησιμότητα και την αρχιτεκτονική του συστήματος. Ορισμένες διαμορφώσεις κατάφεραν να παράγουν διατηρήσιμη συνεργατική συμπεριφορά και να διατηρούν τη συλλογική μετακίνηση της μπάλας για εκτεταμένα χρονικά διαστήματα. Παράλληλα, τα πειράματα ανέδειξαν σημαντική ευαισθησία στην αρχικοποίηση, στη στοχαστικότητα και στη δυναμική της εκπαίδευσης, με την απόδοση της πολιτικής να παρουσιάζει σημαντικές διακυμάνσεις μεταξύ διαφορετικών seeds και ρυθμίσεων αξιολόγησης. Επιπλέον, στα πειράματά μας, η στοχαστική αξιολόγηση παρήγαγε σταθερά ισχυρότερη και πιο αντιπροσωπευτική συμπεριφορά σε σχέση με την ντετερμινιστική εκτέλεση, γεγονός που υποδηλώνει ότι η στοχαστικότητα ενδέχεται να συμβάλλει στην προσαρμοστικότητα της συμπεριφοράς σε συνεργατικά περιβάλλοντα με μερική παρατηρησιμότητα. Συνολικά, τα ευρήματα υποδεικνύουν ότι το shared-policy PPO αποτελεί ένα βιώσιμο πλαίσιο για τη μελέτη του συντονισμού στην συνεργατική πολυπρακτορική ενισχυτική μάθηση. Παρότι η προσέγγιση παρουσιάζει σημαντικούς περιορισμούς ως προς τη σταθερότητα και την αναπαραγωγιμότητα, τα αποτελέσματα καταδεικνύουν ότι είναι δυνατό να αναδυθεί ουσιαστική συνεργατική συμπεριφορά μέσω σχετικά απλών shared-policy αρχιτεκτονικών χωρίς την ανάγκη ρητών μηχανισμών επικοινωνίας.	el
dc.format.extent	78	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.title	Reinforcement learning : training and evaluation of agents in a graphical environment	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	This thesis investigates cooperative behavior in multi-agent reinforcement learning through a shared-policy formulation based on Proximal Policy Optimization (PPO). The study uses the Pistonball-v6 environment as a case study, where multiple agents operate under partial observability and decentralized execution while being controlled by a single shared neural policy. The objective is to examine how coordination emerges without learned communication channels, centralized control, or agent-specific role specialization. The implementation is based on a convolutional actor--critic architecture trained with PPO using parameter sharing across all agents. The experimental analysis focuses on the effects of hyperparameter selection, rollout length, entropy regularization, fine-tuning strategies, and evaluation methodology. Multiple training configurations and random seeds were evaluated in order to examine the stability and reproducibility of cooperative behavior. The results demonstrate that non-trivial coordination can emerge despite strong observational and architectural constraints. Several configurations were able to produce sustained cooperative behavior and maintain collective ball movement for extended periods of time. At the same time, the experiments revealed substantial sensitivity to initialization, stochasticity, and training dynamics, with policy performance varying considerably across seeds and evaluation settings. Additionally, in our experiments, stochastic evaluation consistently produced stronger and more representative behavior than deterministic execution, suggesting that stochasticity may contribute to behavioral adaptability in partially observable cooperative environments. Overall, the findings indicate that shared-policy PPO constitutes a viable framework for studying coordination in cooperative multi-agent reinforcement learning. Although the approach exhibits important limitations in terms of stability and reproducibility, the results demonstrate that meaningful cooperative behavior can emerge from relatively simple shared-policy architectures without explicit communication mechanisms.	el
dc.contributor.master	Πληροφοριακά Συστήματα και Υπηρεσίες	el
dc.subject.keyword	Reinforcement learning	el
dc.subject.keyword	Shared policy	el
dc.subject.keyword	Agents	el
dc.subject.keyword	Multi-agent graphic enviroment	el
dc.date.defense	2026-05

Files in this item

Name:: Vintzilaiou_me2336.pdf
Size:: 1.372Mb
Format:: PDF
Description:: Master thesis

View/Open

This item appears in the following Collection(s)

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Show simple item record