Explainable deep reinforcement learning via online mimicking

Makris, Nikolaos; Μακρής, Νικόλαος

dc.contributor.advisor	Vouros, George
dc.contributor.advisor	Βούρος, Γεώργιος
dc.contributor.author	Makris, Nikolaos
dc.contributor.author	Μακρής, Νικόλαος
dc.date.accessioned	2025-02-10T12:09:05Z
dc.date.available	2025-02-10T12:09:05Z
dc.date.issued	2025-01
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/17444
dc.description	Not available until 28/02/2026
dc.description.abstract	Αυτή η μελέτη προτείνει μια μέθοδο για την εκπαίδευση ερμηνεύσιμων πολιτικών ενισχυτικής μάθησης σε συνεχείς χώρους δράσης, σε στενή αλληλεπίδραση με τα αρχικά βαθιά μοντέλα, εξετάζοντας παράλληλα τις επιπτώσεις της εκπαίδευσης των ερμηνεύσιμων πολιτικών στα αρχικά μοντέλα. Στόχος είναι να επιβεβαιωθεί η εφικτότητα της προτεινόμενης μεθόδου, εξετάζοντας παράλληλα τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας των μοντέλων πολιτικής. Η εργασία αυτή επεκτείνει προηγούμενες μελέτες στον τομέα της Ερμηνεύσιμης Βαθιάς Ενισχυτικής Μάθησης (Explainable Deep Reinforcement Learning – XDRL). Η μέχρι σήμερα έρευνα επικεντρώνεται στο XDQN (Explainable Deep Q-Networks) καθώς και στην ερμηνευσιμότητα των μεθόδων Actor-Critic σε διακριτούς χώρους δράσης, χωρίς να λαμβάνει υπόψη τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας. Συγκεκριμένα, στο προτεινόμενο πλαίσιο, κατά τη διαδικασία εκπαίδευσης, τα αρχικά και τα ερμηνεύσιμα μοντέλα πολιτικής – συγκεκριμένα το Soft Actor-Critic (SAC) και το XGBoost – αλληλεπιδρούν, επηρεάζοντας την εκπαίδευση το ένα του άλλου. Το μοντέλο XGBoost εκπαιδεύεται ώστε να προσεγγίζει με ακρίβεια την πολιτική του SAC, και στη συνέχεια το SAC επαναπροσαρμόζεται για να ευθυγραμμιστεί περισσότερο με το XGBoost, ώστε να ελαχιστοποιηθεί η διαφορά στις προβλέψεις και, συνεπώς, να αυξηθεί η πιστότητα του ερμηνεύσιμου μοντέλου. Αυτό το τελευταίο βήμα επιτυγχάνεται χρησιμοποιώντας τη μέθοδο Dual Gradient Descent, που χρησιμοποιείται σε προβλήματα βελτιστοποίησης με περιορισμούς. Όλα τα πειράματα πραγματοποιήθηκαν στο περιβάλλον OpenAI Gym, χρησιμοποιώντας τέσσερις ρυθμίσεις με συνεχείς χώρους δράσης αυξανόμενης διαστασιμότητας, με στόχο την αξιολόγηση της αποτελεσματικότητας του πλαισίου. Διαπιστώθηκε ότι, λόγω της στενής αλληλεπίδρασης κατά την εκπαίδευση των δύο μοντέλων, η τελική πολιτική του SAC διαφέρει σημαντικά από τη βέλτιστη πολιτική SAC (δηλαδή εκείνη που προκύπτει αποκλειστικά από το SAC). Αυτή η διαφορά γίνεται εντονότερη όσο αυξάνεται η πολυπλοκότητα της πειραματικής ρύθμισης, όπως ήταν αναμενόμενο. Παρόλα αυτά, η αλληλεπίδραση των δύο μοντέλων οδηγεί σε σύγκλιση προς πολιτικές που, αν και δεν είναι απαραίτητα βέλτιστες, είναι ερμηνεύσιμες. Μάλιστα, τα αποτελέσματα δείχνουν ότι η τελική πολιτική του SAC και οι προβλέψεις του μοντέλου XGBoost ευθυγραμμίζονται στενά, καθιστώντας τα εναλλάξιμα, ανεξαρτήτως της πολυπλοκότητας της πειραματικής ρύθμισης. Αυτή η διπλωματική εργασία συνεισφέρει εισάγοντας ένα νέο πλαίσιο που υποστηρίζει την ενσωμάτωση ερμηνεύσιμων μοντέλων πολιτικής σε μεθόδους Βαθιάς Ενισχυτικής Μάθησης. Αυτό επιτυγχάνεται μέσω της αλληλεπίδρασης των μοντέλων πολιτικής του SAC και του XGBoost μέσω της μεθόδου βελτιστοποίησης Dual Gradient Descent, ενώ παρέχονται αποτελέσματα σχετικά με τον συμβιβασμό ανάμεσα στη βέλτιστη απόδοση και την ερμηνευσιμότητα των πολιτικών.	el
dc.format.extent	69	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Explainable deep reinforcement learning via online mimicking	el
dc.title.alternative	Ερμηνεύσιμη βαθιά ενισχυτική μάθηση με ταυτόχρονη μίμηση	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	This study aims to propose a method for training interpretable reinforcement learning policies in continuous state-action spaces, in close interplay with the original deep models, and to examine the effects that the training of interpretable policy models have on the original models. Thus, the objective is to validate the feasibility of this method while examining the trade-offs between the optimality and interpretability of policy models. This extends previous work in the field of Explainable Deep Reinforcement Learning (XDRL). The work completed so far has focused on XDQN (Explainable Deep Q-Networks) as well as on the interpretability of Actor-Critic methods in discrete action spaces, without considering the trade-off between optimality and interpretability. Specifically, in the proposed framework, during the training process, the original and interpretable policy models - from Soft Actor-Critic (SAC) and XGBoost , respectively - interact by influencing each other’s training. The XGBoost model is trained to closely approximate the SAC policy model, after which SAC is fine-tuned towards the XGBoost model to minimize the difference in predictions and, therefore, increase the fidelity of the interpretable model. This latter step is achieved using the Dual Gradient Descent method, used in constrained optimization problems. All experiments are conducted using the OpenAI Gym environment, in four settings with continuous action spaces of increasing dimensionality, to evaluate the framework’s effectiveness. It is observed that, due to the training of both models in close interplay, the final SAC policy differs significantly from the optimal SAC policy (the one that is learned by SAC alone). This difference increases as the complexity of the experimental setting increases, as expected. However, this interplay between the two models leads to convergence on policies that, while not necessarily optimal, are interpretable. Indeed, the results demonstrate that the final SAC’s policy and the XGBoost model’s predictions are closely aligned, allowing them to be interchangeable regardless of the experimental setting complexity. This thesis contributes by introducing a novel framework that supports integrating interpretable policy models into Deep Reinforcement Learning methods. It demonstrates this through the interaction of SAC and XGBoost policy models via the Dual Gradient Descent optimization method, while providing results on the trade-off between the optimality and interpretability of policies.	el
dc.corporate.name	National Center of Scientific Research "Demokritos"	el
dc.contributor.master	Τεχνητή Νοημοσύνη - Artificial Intelligence	el
dc.subject.keyword	Explainable Deep Reinforcement Learning (XDRL)	el
dc.subject.keyword	Soft Actor-Critic (SAC)	el
dc.subject.keyword	Dual gradient descent	el
dc.subject.keyword	XGBoost	el
dc.subject.keyword	Continuous state-action spaces	el
dc.subject.keyword	Optimality-interpretability trade-off	el
dc.date.defense	2025-01-13

Αρχεία σε αυτό το τεκμήριο

Αρχεία	Μέγεθος	Τύπος	Προβολή
Δεν υπάρχουν αρχεία που να σχετίζονται με αυτό το τεκμήριο.

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα