Εμφάνιση απλής εγγραφής

Collaborative reinforcement learning agents

dc.contributor.advisorSpatharis, Christos
dc.contributor.advisorΣπαθάρης, Χρήστος
dc.contributor.authorVytiniotis, Konstantinos
dc.contributor.authorΒυτινιώτης, Κωνσταντίνος
dc.date.accessioned2026-03-12T10:05:49Z
dc.date.available2026-03-12T10:05:49Z
dc.date.issued2026-03
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/18996
dc.identifier.urihttps://github.com/Xindictus/coop-marl-maze
dc.description.abstractΤα συνεργατικά πολυπρακτορικά συστήματα προϋποθέτουν την ικανότητα αυτόνομων οντοτήτων να συντονίζουν τη συμπεριφορά τους σε δυναμικά περιβάλλοντα, με σκοπό την επίτευξη κοινών στόχων. Ωστόσο, η εκπαίδευση τέτοιων πρακτόρων εξακολουθεί να συνιστά σημαντική πρόκληση, εξαιτίας της μη-σταθερότητας (non-stationarity), του προβλήματος κατανομής πίστωσης (credit assignment) και της δυσκολίας διαμόρφωσης κατάλληλων συναρτήσεων ανταμοιβής (reward functions) που εξισορροπούν την ατομική απόδοση με τη συνοχή της ομάδας. Η παρούσα διατριβή ερευνά αυτές τις προκλήσεις σε ένα φυσικά-εμπνευσμένο συνεργατικό πρόβλημα ισορροπίας μπάλας (ball-balancing), όπου δύο πράκτορες συγχρονίζουν τις ενέργειές τους για να οδηγήσουν τη μπάλα σε έναν στόχο. Κεντρική συμβολή αποτελεί η εμπειρική ανάλυση της διαμόρφωσης ανταμοιβής (reward shaping) και των μηχανισμών ανταλλαγής πληροφοριών. Τα αποτελέσματα δείχνουν ότι η μερική παρατηρησιμότητα (partial observability) υπερέχει της πλήρους παρατηρησιμότητας (full observability): ο περιορισμός της πληροφορίας δημιουργεί συμπληρωματικούς ρόλους, ενώ η πλήρης ορατότητα οδηγεί σε τοπικά βέλτιστες καταστάσεις διστακτικότητας. Επιπλέον, η ανταμοιβή βασισμένη στην πρόοδο (progress-based reward shaping) επιτυγχάνει ταχύτερη σύγκλιση και σταθερότητα έναντι αραιών ή τιμωρητικών μορφών. Τέλος, η ανθεκτικότητα των πολιτικών αξιολογείται μέσω μεταφοράς μάθησης από ειδημονα-πρακτορα σε μαθητή-πράκτορα (expert-student transfer learning) και αλληλεπιδράσεων μεταξύ ειδήμονα-ανθρωπου και ειδημονα-πράκτορα (human-agent interactions).el
dc.format.extent76el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleCollaborative reinforcement learning agentsel
dc.title.alternativeΣυνεργατικοί πράκτορες ενισχυτικής μάθησηςel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENCooperative multi-agent systems require autonomous entities to coordinate in dynamic environments to achieve shared goals, yet training such agents remains a significant challenge due to non-stationarity, the credit assignment problem, and the difficulty of defining reward functions that balance individual efficiency with team cohesion. This thesis investigates these challenges within a physics-based cooperative ball-balancing task, where two agents must synchronize their actions to guide a ball to a target. A core contribution of this work is a rigorous empirical analysis of reward shaping and information sharing. Our results demonstrate that partial observability counterintuitively outperforms full observability. Restricting state information fosters distinct complementary roles, whereas fully informed agents frequently fall into local optima characterized by hesitation and hovering. Furthermore, we show that progress-based reward shaping yields superior convergence and stability compared to sparse or penaltybased formulations. Finally, we validate the robustness of the trained policies through expert-student transfer learning and human-agent interaction experiments. Our findings confirm that agents trained with optimal shaping not only solve the task efficiently but generalize effectively when paired with unpredictable human partners, highlighting the practical applicability of the proposed framework for real-world collaborative systems.el
dc.corporate.nameNational Center of Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordQMIXel
dc.subject.keywordMulti-agentel
dc.subject.keywordReward-shapingel
dc.subject.keywordCredit-assignmentel
dc.subject.keywordNon-stationarityel
dc.subject.keywordBall-balancingel
dc.subject.keywordPartial-observabilityel
dc.subject.keywordObservabilityel
dc.subject.keywordProgress-based-rewardel
dc.subject.keywordExpert-student-transferel
dc.subject.keywordHuman-agent-interactionel
dc.subject.keywordCooperative-systemsel
dc.subject.keywordEmpirical-analysisel
dc.subject.keywordPolicy-robustnessel
dc.subject.keywordΠολυπρακτορικά-συστήματαel
dc.subject.keywordΔιαμόρφωση-ανταμοιβήςel
dc.subject.keywordΜη-στασιμότηταel
dc.subject.keywordΜερική-παρατηρησιμότηταel
dc.subject.keywordΣυνεργατικά-συστήματαel
dc.date.defense2026-03-06


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»