| dc.contributor.advisor | Spatharis, Christos | |
| dc.contributor.advisor | Σπαθάρης, Χρήστος | |
| dc.contributor.author | Vytiniotis, Konstantinos | |
| dc.contributor.author | Βυτινιώτης, Κωνσταντίνος | |
| dc.date.accessioned | 2026-03-12T10:05:49Z | |
| dc.date.available | 2026-03-12T10:05:49Z | |
| dc.date.issued | 2026-03 | |
| dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/18996 | |
| dc.identifier.uri | https://github.com/Xindictus/coop-marl-maze | |
| dc.description.abstract | Τα συνεργατικά πολυπρακτορικά συστήματα προϋποθέτουν την ικανότητα αυτόνομων οντοτήτων να συντονίζουν τη συμπεριφορά τους σε δυναμικά περιβάλλοντα, με σκοπό την επίτευξη κοινών στόχων. Ωστόσο, η εκπαίδευση τέτοιων πρακτόρων εξακολουθεί να συνιστά σημαντική πρόκληση, εξαιτίας της μη-σταθερότητας (non-stationarity), του προβλήματος κατανομής πίστωσης (credit assignment) και της δυσκολίας διαμόρφωσης κατάλληλων συναρτήσεων ανταμοιβής (reward functions) που εξισορροπούν την ατομική απόδοση με τη συνοχή της ομάδας. Η παρούσα διατριβή ερευνά αυτές τις προκλήσεις σε ένα φυσικά-εμπνευσμένο συνεργατικό πρόβλημα ισορροπίας μπάλας (ball-balancing), όπου δύο πράκτορες συγχρονίζουν τις ενέργειές τους για να οδηγήσουν τη μπάλα σε έναν στόχο.
Κεντρική συμβολή αποτελεί η εμπειρική ανάλυση της διαμόρφωσης ανταμοιβής (reward shaping) και των μηχανισμών ανταλλαγής πληροφοριών. Τα αποτελέσματα δείχνουν ότι η μερική παρατηρησιμότητα (partial observability) υπερέχει της πλήρους παρατηρησιμότητας (full observability): ο περιορισμός της πληροφορίας δημιουργεί συμπληρωματικούς ρόλους, ενώ η πλήρης ορατότητα οδηγεί σε τοπικά βέλτιστες καταστάσεις διστακτικότητας. Επιπλέον, η ανταμοιβή βασισμένη στην πρόοδο (progress-based reward shaping) επιτυγχάνει ταχύτερη σύγκλιση και σταθερότητα έναντι αραιών ή τιμωρητικών μορφών.
Τέλος, η ανθεκτικότητα των πολιτικών αξιολογείται μέσω μεταφοράς μάθησης από ειδημονα-πρακτορα σε μαθητή-πράκτορα (expert-student transfer learning) και αλληλεπιδράσεων μεταξύ ειδήμονα-ανθρωπου και ειδημονα-πράκτορα (human-agent interactions). | el |
| dc.format.extent | 76 | el |
| dc.language.iso | en | el |
| dc.publisher | Πανεπιστήμιο Πειραιώς | el |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.title | Collaborative reinforcement learning agents | el |
| dc.title.alternative | Συνεργατικοί πράκτορες ενισχυτικής μάθησης | el |
| dc.type | Master Thesis | el |
| dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
| dc.description.abstractEN | Cooperative multi-agent systems require autonomous entities to coordinate in dynamic environments to achieve shared goals, yet training such agents remains a significant challenge due to non-stationarity, the credit assignment problem, and the difficulty of defining reward functions that balance individual efficiency with team cohesion. This thesis investigates these challenges within a physics-based cooperative ball-balancing task, where two agents must synchronize their actions to guide a ball to a target.
A core contribution of this work is a rigorous empirical analysis of reward shaping and information sharing. Our results demonstrate that partial observability counterintuitively outperforms full observability. Restricting state information fosters distinct complementary roles, whereas fully informed agents frequently fall into local optima characterized by hesitation and hovering. Furthermore, we show that progress-based reward shaping yields superior convergence and stability compared to sparse or penaltybased formulations.
Finally, we validate the robustness of the trained policies through expert-student transfer learning and human-agent interaction experiments. Our findings confirm that agents trained with optimal shaping not only solve the task efficiently but generalize effectively when paired with unpredictable human partners, highlighting the practical applicability of the proposed framework for real-world collaborative systems. | el |
| dc.corporate.name | National Center of Scientific Research "Demokritos" | el |
| dc.contributor.master | Τεχνητή Νοημοσύνη - Artificial Intelligence | el |
| dc.subject.keyword | QMIX | el |
| dc.subject.keyword | Multi-agent | el |
| dc.subject.keyword | Reward-shaping | el |
| dc.subject.keyword | Credit-assignment | el |
| dc.subject.keyword | Non-stationarity | el |
| dc.subject.keyword | Ball-balancing | el |
| dc.subject.keyword | Partial-observability | el |
| dc.subject.keyword | Observability | el |
| dc.subject.keyword | Progress-based-reward | el |
| dc.subject.keyword | Expert-student-transfer | el |
| dc.subject.keyword | Human-agent-interaction | el |
| dc.subject.keyword | Cooperative-systems | el |
| dc.subject.keyword | Empirical-analysis | el |
| dc.subject.keyword | Policy-robustness | el |
| dc.subject.keyword | Πολυπρακτορικά-συστήματα | el |
| dc.subject.keyword | Διαμόρφωση-ανταμοιβής | el |
| dc.subject.keyword | Μη-στασιμότητα | el |
| dc.subject.keyword | Μερική-παρατηρησιμότητα | el |
| dc.subject.keyword | Συνεργατικά-συστήματα | el |
| dc.date.defense | 2026-03-06 | |