Multi-agent reinforcement learning with diffusion models
Πολυπρακτορική ενισχυτική μάθηση με μοντέλα διάχυσης

Master Thesis
Συγγραφέας
Tsilifonis, Aris
Τσιλιφώνης, Άρης
Ημερομηνία
2025-06Επιβλέπων
Vouros, GeorgeΒούρος, Γεώργιος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Deep Learning ; Reinforcement Learning ; Multi-agent Systems ; Diffusion ModelsΠερίληψη
Τα μοντέλα διάχυσης (diffusion models) έχουν εφαρμοστεί όλο και περισσότερο στον τομέα της Ενισχυτικής Μάθησης (Reinforcement Learning, RL) για την αντιμετώπιση πολύπλοκων προβλημάτων λήψης αποφάσεων. Ωστόσο, η αποτελεσματικότητα τους στη μάθηση πολιτικών για πολλαπλούς πράκτορες δεν έχει μελετηθεί επαρκώς στη βιβλιογραφία. Η παρούσα διπλωματική εξετάζει πώς αυτά τα μοντέλα μπορούν να ενισχύσουν τις τεχνικές Πολυπρακτορικής Ενισχυτικής Μάθησης (Multi-Agent RL, MARL) σε σύνθετα περιβάλλοντα πολλαπλών πρακτόρων, εντός του διακεκριμένου πλαισίου Κεντρικοποιημένης Εκπαίδευσης με Αποκεντρωμένη Εκτέλεση (Centralized Training with Decentralized Execution-CTDE). Παρουσιάζουμε μια μέθοδο MARL, με την ονομασία Q-Diffuser, η οποία στοχεύει στον εμπνευσμένο (imaginative) σχηματισμό μηνυμάτων επικοινωνίας μεταξύ των πρακτόρων και στη χρήση των εξαγόμενων νοημάτων για τη βελτίωση της εκτίμησης της συνάρτησης Q, βασιζόμενη στον κορυφαίο αλγόριθμο MARL QMIX. Η προσέγγιση αξιοποιεί μια ευρεία γκάμα σύγχρονων τεχνικών, συμπεριλαμβανομένων των Πιθανοτικών Μοντέλων Διάχυσης με Αποθορυβοποίηση (Denoising Diffusion Probabilistic Models-DDPM), αρχιτεκτονικών μετασχηματιστών (transformers) και της ιδιότητας Ατομικό-Ολικό Μέγιστο (Individual-Global-Max -IGM). Πειραματικά, αξιολογούμε τον Q-Diffuser στο ευρέως χρησιμοποιούμενο κριτήριο αξιολόγησης απόδοσης StarCraft Multi-Agent Challenge (SMAC) και καταδεικνύουμε ανώτερη απόδοση σε σχέση με τον κλασικό QMIX σε ένα ποικίλο σύνολο απαιτητικών σεναρίων, συμπεριλαμβανομένων των δύσκολων και πολύ δύσκολων χαρτών.


