Collaborative reinforcement learning agents

Vytiniotis, Konstantinos; Βυτινιώτης, Κωνσταντίνος

Συνεργατικοί πράκτορες ενισχυτικής μάθησης

Master Thesis

Συγγραφέας

Vytiniotis, Konstantinos

Βυτινιώτης, Κωνσταντίνος

Ημερομηνία

2026-03

Περίληψη

Τα συνεργατικά πολυπρακτορικά συστήματα προϋποθέτουν την ικανότητα αυτόνομων οντοτήτων να συντονίζουν τη συμπεριφορά τους σε δυναμικά περιβάλλοντα, με σκοπό την επίτευξη κοινών στόχων. Ωστόσο, η εκπαίδευση τέτοιων πρακτόρων εξακολουθεί να συνιστά σημαντική πρόκληση, εξαιτίας της μη-σταθερότητας (non-stationarity), του προβλήματος κατανομής πίστωσης (credit assignment) και της δυσκολίας διαμόρφωσης κατάλληλων συναρτήσεων ανταμοιβής (reward functions) που εξισορροπούν την ατομική απόδοση με τη συνοχή της ομάδας. Η παρούσα διατριβή ερευνά αυτές τις προκλήσεις σε ένα φυσικά-εμπνευσμένο συνεργατικό πρόβλημα ισορροπίας μπάλας (ball-balancing), όπου δύο πράκτορες συγχρονίζουν τις ενέργειές τους για να οδηγήσουν τη μπάλα σε έναν στόχο. Κεντρική συμβολή αποτελεί η εμπειρική ανάλυση της διαμόρφωσης ανταμοιβής (reward shaping) και των μηχανισμών ανταλλαγής πληροφοριών. Τα αποτελέσματα δείχνουν ότι η μερική παρατηρησιμότητα (partial observability) υπερέχει της πλήρους παρατηρησιμότητας (full observability): ο περιορισμός της πληροφορίας δημιουργεί συμπληρωματικούς ρόλους, ενώ η πλήρης ορατότητα οδηγεί σε τοπικά βέλτιστες καταστάσεις διστακτικότητας. Επιπλέον, η ανταμοιβή βασισμένη στην πρόοδο (progress-based reward shaping) επιτυγχάνει ταχύτερη σύγκλιση και σταθερότητα έναντι αραιών ή τιμωρητικών μορφών. Τέλος, η ανθεκτικότητα των πολιτικών αξιολογείται μέσω μεταφοράς μάθησης από ειδημονα-πρακτορα σε μαθητή-πράκτορα (expert-student transfer learning) και αλληλεπιδράσεων μεταξύ ειδήμονα-ανθρωπου και ειδημονα-πράκτορα (human-agent interactions).

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Τεχνητή Νοημοσύνη - Artificial Intelligence

Τμήμα

Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων

Συνεργαζόμενο Ίδρυμα

National Center of Scientific Research "Demokritos"

Αριθμός σελίδων

Γλώσσα

Αγγλικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/18996
https://github.com/Xindictus/coop-marl-maze

Συλλογή

Τμήμα Ψηφιακών Συστημάτων

Εμφάνιση πλήρους εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα