Show simple item record

dc.contributor.advisorFilippakis, Michael
dc.contributor.advisorΦιλιππάκης, Μιχαήλ
dc.contributor.authorVintzilaiou, Vasiliki
dc.contributor.authorΒιντζηλαίου, Βασιλική
dc.date.accessioned2026-05-27T08:10:32Z
dc.date.available2026-05-27T08:10:32Z
dc.date.issued2025-10
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/19389
dc.description.abstractΗ παρούσα διπλωματική εργασία διερευνά τη συνεργατική συμπεριφορά στη πολυπρακτορική ενισχυτική μάθηση μέσω μιας προσέγγισης κοινής πολιτικής (shared-policy), βασισμένης στον αλγόριθμο Proximal Policy Optimization (PPO). Η μελέτη χρησιμοποιεί το περιβάλλον Pistonball-v6 ως μελέτη περίπτωσης, όπου πολλαπλοί πράκτορες λειτουργούν υπό συνθήκες μερικής παρατηρησιμότητας και αποκεντρωμένης εκτέλεσης, ενώ ελέγχονται από μία κοινή νευρωνική πολιτική. Στόχος είναι να εξεταστεί πώς αναδύεται ο συντονισμός χωρίς την ύπαρξη μαθημένων καναλιών επικοινωνίας, κεντρικού ελέγχου ή εξειδικευμένων ρόλων ανά πράκτορα. Η υλοποίηση βασίζεται σε μία συνελικτική αρχιτεκτονική actor–critic, η οποία εκπαιδεύεται με PPO χρησιμοποιώντας parameter sharing μεταξύ όλων των πρακτόρων. Η πειραματική ανάλυση επικεντρώνεται στις επιδράσεις της επιλογής υπερπαραμέτρων, του μήκους των rollouts, της εντροπικής κανονικοποίησης (entropy regularization), των στρατηγικών fine-tuning και της μεθοδολογίας αξιολόγησης. Πολλαπλές διαμορφώσεις εκπαίδευσης και διαφορετικοί τυχαίοι σπόροι (random seeds) αξιολογήθηκαν προκειμένου να εξεταστούν η σταθερότητα και η αναπαραγωγιμότητα της συνεργατικής συμπεριφοράς. Τα αποτελέσματα δείχνουν ότι μπορεί να αναδυθεί μη τετριμμένος συντονισμός παρά τους ισχυρούς περιορισμούς που επιβάλλονται από τη μερική παρατηρησιμότητα και την αρχιτεκτονική του συστήματος. Ορισμένες διαμορφώσεις κατάφεραν να παράγουν διατηρήσιμη συνεργατική συμπεριφορά και να διατηρούν τη συλλογική μετακίνηση της μπάλας για εκτεταμένα χρονικά διαστήματα. Παράλληλα, τα πειράματα ανέδειξαν σημαντική ευαισθησία στην αρχικοποίηση, στη στοχαστικότητα και στη δυναμική της εκπαίδευσης, με την απόδοση της πολιτικής να παρουσιάζει σημαντικές διακυμάνσεις μεταξύ διαφορετικών seeds και ρυθμίσεων αξιολόγησης. Επιπλέον, στα πειράματά μας, η στοχαστική αξιολόγηση παρήγαγε σταθερά ισχυρότερη και πιο αντιπροσωπευτική συμπεριφορά σε σχέση με την ντετερμινιστική εκτέλεση, γεγονός που υποδηλώνει ότι η στοχαστικότητα ενδέχεται να συμβάλλει στην προσαρμοστικότητα της συμπεριφοράς σε συνεργατικά περιβάλλοντα με μερική παρατηρησιμότητα. Συνολικά, τα ευρήματα υποδεικνύουν ότι το shared-policy PPO αποτελεί ένα βιώσιμο πλαίσιο για τη μελέτη του συντονισμού στην συνεργατική πολυπρακτορική ενισχυτική μάθηση. Παρότι η προσέγγιση παρουσιάζει σημαντικούς περιορισμούς ως προς τη σταθερότητα και την αναπαραγωγιμότητα, τα αποτελέσματα καταδεικνύουν ότι είναι δυνατό να αναδυθεί ουσιαστική συνεργατική συμπεριφορά μέσω σχετικά απλών shared-policy αρχιτεκτονικών χωρίς την ανάγκη ρητών μηχανισμών επικοινωνίας.el
dc.format.extent78el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.titleReinforcement learning : training and evaluation of agents in a graphical environmentel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENThis thesis investigates cooperative behavior in multi-agent reinforcement learning through a shared-policy formulation based on Proximal Policy Optimization (PPO). The study uses the Pistonball-v6 environment as a case study, where multiple agents operate under partial observability and decentralized execution while being controlled by a single shared neural policy. The objective is to examine how coordination emerges without learned communication channels, centralized control, or agent-specific role specialization. The implementation is based on a convolutional actor--critic architecture trained with PPO using parameter sharing across all agents. The experimental analysis focuses on the effects of hyperparameter selection, rollout length, entropy regularization, fine-tuning strategies, and evaluation methodology. Multiple training configurations and random seeds were evaluated in order to examine the stability and reproducibility of cooperative behavior. The results demonstrate that non-trivial coordination can emerge despite strong observational and architectural constraints. Several configurations were able to produce sustained cooperative behavior and maintain collective ball movement for extended periods of time. At the same time, the experiments revealed substantial sensitivity to initialization, stochasticity, and training dynamics, with policy performance varying considerably across seeds and evaluation settings. Additionally, in our experiments, stochastic evaluation consistently produced stronger and more representative behavior than deterministic execution, suggesting that stochasticity may contribute to behavioral adaptability in partially observable cooperative environments. Overall, the findings indicate that shared-policy PPO constitutes a viable framework for studying coordination in cooperative multi-agent reinforcement learning. Although the approach exhibits important limitations in terms of stability and reproducibility, the results demonstrate that meaningful cooperative behavior can emerge from relatively simple shared-policy architectures without explicit communication mechanisms.el
dc.contributor.masterΠληροφοριακά Συστήματα και Υπηρεσίεςel
dc.subject.keywordReinforcement learningel
dc.subject.keywordShared policyel
dc.subject.keywordAgentsel
dc.subject.keywordMulti-agent graphic enviromentel
dc.date.defense2026-05


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record


Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Contact Us
Send Feedback
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»