| dc.contributor.advisor | Filippakis, Michael | |
| dc.contributor.advisor | Φιλιππάκης, Μιχαήλ | |
| dc.contributor.author | Vintzilaiou, Vasiliki | |
| dc.contributor.author | Βιντζηλαίου, Βασιλική | |
| dc.date.accessioned | 2026-05-27T08:10:32Z | |
| dc.date.available | 2026-05-27T08:10:32Z | |
| dc.date.issued | 2025-10 | |
| dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/19389 | |
| dc.description.abstract | Η παρούσα διπλωματική εργασία διερευνά τη συνεργατική συμπεριφορά στη πολυπρακτορική ενισχυτική μάθηση μέσω μιας προσέγγισης κοινής πολιτικής (shared-policy), βασισμένης στον αλγόριθμο Proximal Policy Optimization (PPO). Η μελέτη χρησιμοποιεί το περιβάλλον Pistonball-v6 ως μελέτη περίπτωσης, όπου πολλαπλοί πράκτορες λειτουργούν υπό συνθήκες μερικής παρατηρησιμότητας και αποκεντρωμένης εκτέλεσης, ενώ ελέγχονται από μία κοινή νευρωνική πολιτική. Στόχος είναι να εξεταστεί πώς αναδύεται ο συντονισμός χωρίς την ύπαρξη μαθημένων καναλιών επικοινωνίας, κεντρικού ελέγχου ή εξειδικευμένων ρόλων ανά πράκτορα.
Η υλοποίηση βασίζεται σε μία συνελικτική αρχιτεκτονική actor–critic, η οποία εκπαιδεύεται με PPO χρησιμοποιώντας parameter sharing μεταξύ όλων των πρακτόρων. Η πειραματική ανάλυση επικεντρώνεται στις επιδράσεις της επιλογής υπερπαραμέτρων, του μήκους των rollouts, της εντροπικής κανονικοποίησης (entropy regularization), των στρατηγικών fine-tuning και της μεθοδολογίας αξιολόγησης. Πολλαπλές διαμορφώσεις εκπαίδευσης και διαφορετικοί τυχαίοι σπόροι (random seeds) αξιολογήθηκαν προκειμένου να εξεταστούν η σταθερότητα και η αναπαραγωγιμότητα της συνεργατικής συμπεριφοράς.
Τα αποτελέσματα δείχνουν ότι μπορεί να αναδυθεί μη τετριμμένος συντονισμός παρά τους ισχυρούς περιορισμούς που επιβάλλονται από τη μερική παρατηρησιμότητα και την αρχιτεκτονική του συστήματος. Ορισμένες διαμορφώσεις κατάφεραν να παράγουν διατηρήσιμη συνεργατική συμπεριφορά και να διατηρούν τη συλλογική μετακίνηση της μπάλας για εκτεταμένα χρονικά διαστήματα. Παράλληλα, τα πειράματα ανέδειξαν σημαντική ευαισθησία στην αρχικοποίηση, στη στοχαστικότητα και στη δυναμική της εκπαίδευσης, με την απόδοση της πολιτικής να παρουσιάζει σημαντικές διακυμάνσεις μεταξύ διαφορετικών seeds και ρυθμίσεων αξιολόγησης. Επιπλέον, στα πειράματά μας, η στοχαστική αξιολόγηση παρήγαγε σταθερά ισχυρότερη και πιο αντιπροσωπευτική συμπεριφορά σε σχέση με την ντετερμινιστική εκτέλεση, γεγονός που υποδηλώνει ότι η στοχαστικότητα ενδέχεται να συμβάλλει στην προσαρμοστικότητα της συμπεριφοράς σε συνεργατικά περιβάλλοντα με μερική παρατηρησιμότητα.
Συνολικά, τα ευρήματα υποδεικνύουν ότι το shared-policy PPO αποτελεί ένα βιώσιμο πλαίσιο για τη μελέτη του συντονισμού στην συνεργατική πολυπρακτορική ενισχυτική μάθηση. Παρότι η προσέγγιση παρουσιάζει σημαντικούς περιορισμούς ως προς τη σταθερότητα και την αναπαραγωγιμότητα, τα αποτελέσματα καταδεικνύουν ότι είναι δυνατό να αναδυθεί ουσιαστική συνεργατική συμπεριφορά μέσω σχετικά απλών shared-policy αρχιτεκτονικών χωρίς την ανάγκη ρητών μηχανισμών επικοινωνίας. | el |
| dc.format.extent | 78 | el |
| dc.language.iso | en | el |
| dc.publisher | Πανεπιστήμιο Πειραιώς | el |
| dc.title | Reinforcement learning : training and evaluation of agents in a graphical environment | el |
| dc.type | Master Thesis | el |
| dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
| dc.description.abstractEN | This thesis investigates cooperative behavior in multi-agent reinforcement
learning through a shared-policy formulation based on Proximal Policy
Optimization (PPO). The study uses the Pistonball-v6 environment as a case
study, where multiple agents operate under partial observability and
decentralized execution while being controlled by a single shared neural policy.
The objective is to examine how coordination emerges without learned communication channels, centralized control, or agent-specific role specialization.
The implementation is based on a convolutional actor--critic architecture trained
with PPO using parameter sharing across all agents. The experimental analysis
focuses on the effects of hyperparameter selection, rollout length, entropy
regularization, fine-tuning strategies, and evaluation methodology. Multiple
training configurations and random seeds were evaluated in order to examine the
stability and reproducibility of cooperative behavior.
The results demonstrate that non-trivial coordination can emerge despite strong
observational and architectural constraints. Several configurations were able to
produce sustained cooperative behavior and maintain collective ball movement for
extended periods of time. At the same time, the experiments revealed substantial
sensitivity to initialization, stochasticity, and training dynamics, with policy
performance varying considerably across seeds and evaluation settings.
Additionally, in our experiments, stochastic evaluation consistently produced stronger and more
representative behavior than deterministic execution, suggesting that
stochasticity may contribute to behavioral adaptability in partially observable
cooperative environments.
Overall, the findings indicate that shared-policy PPO constitutes a viable
framework for studying coordination in cooperative multi-agent reinforcement
learning. Although the approach exhibits important limitations in terms of
stability and reproducibility, the results demonstrate that meaningful
cooperative behavior can emerge from relatively simple shared-policy
architectures without explicit communication mechanisms. | el |
| dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
| dc.subject.keyword | Reinforcement learning | el |
| dc.subject.keyword | Shared policy | el |
| dc.subject.keyword | Agents | el |
| dc.subject.keyword | Multi-agent graphic enviroment | el |
| dc.date.defense | 2026-05 | |