Collaborative reinforcement learning agents

Vytiniotis, Konstantinos; Βυτινιώτης, Κωνσταντίνος

dc.contributor.advisor	Spatharis, Christos
dc.contributor.advisor	Σπαθάρης, Χρήστος
dc.contributor.author	Vytiniotis, Konstantinos
dc.contributor.author	Βυτινιώτης, Κωνσταντίνος
dc.date.accessioned	2026-03-12T10:05:49Z
dc.date.available	2026-03-12T10:05:49Z
dc.date.issued	2026-03
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/18996
dc.identifier.uri	https://github.com/Xindictus/coop-marl-maze
dc.description.abstract	Τα συνεργατικά πολυπρακτορικά συστήματα προϋποθέτουν την ικανότητα αυτόνομων οντοτήτων να συντονίζουν τη συμπεριφορά τους σε δυναμικά περιβάλλοντα, με σκοπό την επίτευξη κοινών στόχων. Ωστόσο, η εκπαίδευση τέτοιων πρακτόρων εξακολουθεί να συνιστά σημαντική πρόκληση, εξαιτίας της μη-σταθερότητας (non-stationarity), του προβλήματος κατανομής πίστωσης (credit assignment) και της δυσκολίας διαμόρφωσης κατάλληλων συναρτήσεων ανταμοιβής (reward functions) που εξισορροπούν την ατομική απόδοση με τη συνοχή της ομάδας. Η παρούσα διατριβή ερευνά αυτές τις προκλήσεις σε ένα φυσικά-εμπνευσμένο συνεργατικό πρόβλημα ισορροπίας μπάλας (ball-balancing), όπου δύο πράκτορες συγχρονίζουν τις ενέργειές τους για να οδηγήσουν τη μπάλα σε έναν στόχο. Κεντρική συμβολή αποτελεί η εμπειρική ανάλυση της διαμόρφωσης ανταμοιβής (reward shaping) και των μηχανισμών ανταλλαγής πληροφοριών. Τα αποτελέσματα δείχνουν ότι η μερική παρατηρησιμότητα (partial observability) υπερέχει της πλήρους παρατηρησιμότητας (full observability): ο περιορισμός της πληροφορίας δημιουργεί συμπληρωματικούς ρόλους, ενώ η πλήρης ορατότητα οδηγεί σε τοπικά βέλτιστες καταστάσεις διστακτικότητας. Επιπλέον, η ανταμοιβή βασισμένη στην πρόοδο (progress-based reward shaping) επιτυγχάνει ταχύτερη σύγκλιση και σταθερότητα έναντι αραιών ή τιμωρητικών μορφών. Τέλος, η ανθεκτικότητα των πολιτικών αξιολογείται μέσω μεταφοράς μάθησης από ειδημονα-πρακτορα σε μαθητή-πράκτορα (expert-student transfer learning) και αλληλεπιδράσεων μεταξύ ειδήμονα-ανθρωπου και ειδημονα-πράκτορα (human-agent interactions).	el
dc.format.extent	76	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Collaborative reinforcement learning agents	el
dc.title.alternative	Συνεργατικοί πράκτορες ενισχυτικής μάθησης	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	Cooperative multi-agent systems require autonomous entities to coordinate in dynamic environments to achieve shared goals, yet training such agents remains a significant challenge due to non-stationarity, the credit assignment problem, and the difficulty of defining reward functions that balance individual efficiency with team cohesion. This thesis investigates these challenges within a physics-based cooperative ball-balancing task, where two agents must synchronize their actions to guide a ball to a target. A core contribution of this work is a rigorous empirical analysis of reward shaping and information sharing. Our results demonstrate that partial observability counterintuitively outperforms full observability. Restricting state information fosters distinct complementary roles, whereas fully informed agents frequently fall into local optima characterized by hesitation and hovering. Furthermore, we show that progress-based reward shaping yields superior convergence and stability compared to sparse or penaltybased formulations. Finally, we validate the robustness of the trained policies through expert-student transfer learning and human-agent interaction experiments. Our findings confirm that agents trained with optimal shaping not only solve the task efficiently but generalize effectively when paired with unpredictable human partners, highlighting the practical applicability of the proposed framework for real-world collaborative systems.	el
dc.corporate.name	National Center of Scientific Research "Demokritos"	el
dc.contributor.master	Τεχνητή Νοημοσύνη - Artificial Intelligence	el
dc.subject.keyword	QMIX	el
dc.subject.keyword	Multi-agent	el
dc.subject.keyword	Reward-shaping	el
dc.subject.keyword	Credit-assignment	el
dc.subject.keyword	Non-stationarity	el
dc.subject.keyword	Ball-balancing	el
dc.subject.keyword	Partial-observability	el
dc.subject.keyword	Observability	el
dc.subject.keyword	Progress-based-reward	el
dc.subject.keyword	Expert-student-transfer	el
dc.subject.keyword	Human-agent-interaction	el
dc.subject.keyword	Cooperative-systems	el
dc.subject.keyword	Empirical-analysis	el
dc.subject.keyword	Policy-robustness	el
dc.subject.keyword	Πολυπρακτορικά-συστήματα	el
dc.subject.keyword	Διαμόρφωση-ανταμοιβής	el
dc.subject.keyword	Μη-στασιμότητα	el
dc.subject.keyword	Μερική-παρατηρησιμότητα	el
dc.subject.keyword	Συνεργατικά-συστήματα	el
dc.date.defense	2026-03-06

Αρχεία σε αυτό το τεκμήριο

Name:: Vytiniotis_mtn2308.pdf
Μέγεθος:: 4.737Mb
Τύπος:: PDF
Description:: Master thesis

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα