Collaborative reinforcement learning agents
Συνεργατικοί πράκτορες ενισχυτικής μάθησης

Master Thesis
Συγγραφέας
Vytiniotis, Konstantinos
Βυτινιώτης, Κωνσταντίνος
Ημερομηνία
2026-03Επιβλέπων
Spatharis, ChristosΣπαθάρης, Χρήστος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
QMIX ; Multi-agent ; Reward-shaping ; Credit-assignment ; Non-stationarity ; Ball-balancing ; Partial-observability ; Observability ; Progress-based-reward ; Expert-student-transfer ; Human-agent-interaction ; Cooperative-systems ; Empirical-analysis ; Policy-robustness ; Πολυπρακτορικά-συστήματα ; Διαμόρφωση-ανταμοιβής ; Μη-στασιμότητα ; Μερική-παρατηρησιμότητα ; Συνεργατικά-συστήματαΠερίληψη
Τα συνεργατικά πολυπρακτορικά συστήματα προϋποθέτουν την ικανότητα αυτόνομων οντοτήτων να συντονίζουν τη συμπεριφορά τους σε δυναμικά περιβάλλοντα, με σκοπό την επίτευξη κοινών στόχων. Ωστόσο, η εκπαίδευση τέτοιων πρακτόρων εξακολουθεί να συνιστά σημαντική πρόκληση, εξαιτίας της μη-σταθερότητας (non-stationarity), του προβλήματος κατανομής πίστωσης (credit assignment) και της δυσκολίας διαμόρφωσης κατάλληλων συναρτήσεων ανταμοιβής (reward functions) που εξισορροπούν την ατομική απόδοση με τη συνοχή της ομάδας. Η παρούσα διατριβή ερευνά αυτές τις προκλήσεις σε ένα φυσικά-εμπνευσμένο συνεργατικό πρόβλημα ισορροπίας μπάλας (ball-balancing), όπου δύο πράκτορες συγχρονίζουν τις ενέργειές τους για να οδηγήσουν τη μπάλα σε έναν στόχο.
Κεντρική συμβολή αποτελεί η εμπειρική ανάλυση της διαμόρφωσης ανταμοιβής (reward shaping) και των μηχανισμών ανταλλαγής πληροφοριών. Τα αποτελέσματα δείχνουν ότι η μερική παρατηρησιμότητα (partial observability) υπερέχει της πλήρους παρατηρησιμότητας (full observability): ο περιορισμός της πληροφορίας δημιουργεί συμπληρωματικούς ρόλους, ενώ η πλήρης ορατότητα οδηγεί σε τοπικά βέλτιστες καταστάσεις διστακτικότητας. Επιπλέον, η ανταμοιβή βασισμένη στην πρόοδο (progress-based reward shaping) επιτυγχάνει ταχύτερη σύγκλιση και σταθερότητα έναντι αραιών ή τιμωρητικών μορφών.
Τέλος, η ανθεκτικότητα των πολιτικών αξιολογείται μέσω μεταφοράς μάθησης από ειδημονα-πρακτορα σε μαθητή-πράκτορα (expert-student transfer learning) και αλληλεπιδράσεων μεταξύ ειδήμονα-ανθρωπου και ειδημονα-πράκτορα (human-agent interactions).


