Εμφάνιση απλής εγγραφής

Multi-agent reinforcement learning with diffusion models

dc.contributor.advisorVouros, George
dc.contributor.advisorΒούρος, Γεώργιος
dc.contributor.authorTsilifonis, Aris
dc.contributor.authorΤσιλιφώνης, Άρης
dc.date.accessioned2025-09-05T10:35:31Z
dc.date.available2025-09-05T10:35:31Z
dc.date.issued2025-06
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/18088
dc.description.abstractΤα μοντέλα διάχυσης (diffusion models) έχουν εφαρμοστεί όλο και περισσότερο στον τομέα της Ενισχυτικής Μάθησης (Reinforcement Learning, RL) για την αντιμετώπιση πολύπλοκων προβλημάτων λήψης αποφάσεων. Ωστόσο, η αποτελεσματικότητα τους στη μάθηση πολιτικών για πολλαπλούς πράκτορες δεν έχει μελετηθεί επαρκώς στη βιβλιογραφία. Η παρούσα διπλωματική εξετάζει πώς αυτά τα μοντέλα μπορούν να ενισχύσουν τις τεχνικές Πολυπρακτορικής Ενισχυτικής Μάθησης (Multi-Agent RL, MARL) σε σύνθετα περιβάλλοντα πολλαπλών πρακτόρων, εντός του διακεκριμένου πλαισίου Κεντρικοποιημένης Εκπαίδευσης με Αποκεντρωμένη Εκτέλεση (Centralized Training with Decentralized Execution-CTDE). Παρουσιάζουμε μια μέθοδο MARL, με την ονομασία Q-Diffuser, η οποία στοχεύει στον εμπνευσμένο (imaginative) σχηματισμό μηνυμάτων επικοινωνίας μεταξύ των πρακτόρων και στη χρήση των εξαγόμενων νοημάτων για τη βελτίωση της εκτίμησης της συνάρτησης Q, βασιζόμενη στον κορυφαίο αλγόριθμο MARL QMIX. Η προσέγγιση αξιοποιεί μια ευρεία γκάμα σύγχρονων τεχνικών, συμπεριλαμβανομένων των Πιθανοτικών Μοντέλων Διάχυσης με Αποθορυβοποίηση (Denoising Diffusion Probabilistic Models-DDPM), αρχιτεκτονικών μετασχηματιστών (transformers) και της ιδιότητας Ατομικό-Ολικό Μέγιστο (Individual-Global-Max -IGM). Πειραματικά, αξιολογούμε τον Q-Diffuser στο ευρέως χρησιμοποιούμενο κριτήριο αξιολόγησης απόδοσης StarCraft Multi-Agent Challenge (SMAC) και καταδεικνύουμε ανώτερη απόδοση σε σχέση με τον κλασικό QMIX σε ένα ποικίλο σύνολο απαιτητικών σεναρίων, συμπεριλαμβανομένων των δύσκολων και πολύ δύσκολων χαρτών.el
dc.format.extent85el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleMulti-agent reinforcement learning with diffusion modelsel
dc.title.alternativeΠολυπρακτορική ενισχυτική μάθηση με μοντέλα διάχυσηςel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENDiffusion models have been increasingly applied to Reinforcement Learning (RL) in order to deal with complex decision-making tasks. However, their effectiveness in learning multi-agent policies have not been thoroughly studied in the literature. This thesis explores how these models can enhance Multi-Agent RL (MARL) techniques in complex multi-agent environments under the celebrated CTDE schema. We present a MARL method, dubbed Q-Diffuser, which aims at inferring imaginative communication messages among agents, and further using meaningful inferred information to enhance the estimation of the Q-value function building upon the most premier MARL algorithm, called QMIX. The approach leverages a wide array of state-of-the-art techniques, including Denoising Diffusion Probabilistic Models (DDPM), transformer architectures, and the individual-global-max (IGM) property. Experimentally, we evaluate Q-Diffuser on the widely used StarCraft Multi-Agent Challenge (SMAC) benchmark and demonstrate superior performance over vanilla QMIX on a diverse set of challenging tasks, including Hard and Super-Hard maps.el
dc.corporate.nameNational Center of Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordDeep Learningel
dc.subject.keywordReinforcement Learningel
dc.subject.keywordMulti-agent Systemsel
dc.subject.keywordDiffusion Modelsel
dc.date.defense2025-07-15


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»