dc.contributor.advisor | Vouros, George | |
dc.contributor.advisor | Βούρος, Γεώργιος | |
dc.contributor.author | Makris, Nikolaos | |
dc.contributor.author | Μακρής, Νικόλαος | |
dc.date.accessioned | 2025-02-10T12:09:05Z | |
dc.date.available | 2025-02-10T12:09:05Z | |
dc.date.issued | 2025-01 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/17444 | |
dc.description | Not available until 28/02/2026 | |
dc.description.abstract | Αυτή η μελέτη προτείνει μια μέθοδο για την εκπαίδευση ερμηνεύσιμων πολιτικών ενισχυτικής μάθησης σε συνεχείς χώρους δράσης, σε στενή αλληλεπίδραση με τα αρχικά βαθιά μοντέλα, εξετάζοντας παράλληλα τις επιπτώσεις της εκπαίδευσης των ερμηνεύσιμων πολιτικών στα αρχικά μοντέλα. Στόχος είναι να επιβεβαιωθεί η εφικτότητα της προτεινόμενης μεθόδου, εξετάζοντας παράλληλα τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας των μοντέλων πολιτικής. Η εργασία αυτή επεκτείνει προηγούμενες μελέτες στον τομέα της Ερμηνεύσιμης Βαθιάς Ενισχυτικής Μάθησης (Explainable Deep Reinforcement Learning – XDRL). Η μέχρι σήμερα έρευνα επικεντρώνεται στο XDQN (Explainable Deep Q-Networks) καθώς και στην ερμηνευσιμότητα των μεθόδων Actor-Critic σε διακριτούς χώρους δράσης, χωρίς να λαμβάνει υπόψη τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας.
Συγκεκριμένα, στο προτεινόμενο πλαίσιο, κατά τη διαδικασία εκπαίδευσης, τα αρχικά και τα ερμηνεύσιμα μοντέλα πολιτικής – συγκεκριμένα το Soft Actor-Critic (SAC) και το XGBoost – αλληλεπιδρούν, επηρεάζοντας την εκπαίδευση το ένα του άλλου. Το μοντέλο XGBoost εκπαιδεύεται ώστε να προσεγγίζει με ακρίβεια την πολιτική του SAC, και στη συνέχεια το SAC επαναπροσαρμόζεται για να ευθυγραμμιστεί περισσότερο με το XGBoost, ώστε να ελαχιστοποιηθεί η διαφορά στις προβλέψεις και, συνεπώς, να αυξηθεί η πιστότητα του ερμηνεύσιμου μοντέλου. Αυτό το τελευταίο βήμα επιτυγχάνεται χρησιμοποιώντας τη μέθοδο Dual Gradient Descent, που χρησιμοποιείται σε προβλήματα βελτιστοποίησης με περιορισμούς.
Όλα τα πειράματα πραγματοποιήθηκαν στο περιβάλλον OpenAI Gym, χρησιμοποιώντας τέσσερις ρυθμίσεις με συνεχείς χώρους δράσης αυξανόμενης διαστασιμότητας, με στόχο την αξιολόγηση της αποτελεσματικότητας του πλαισίου. Διαπιστώθηκε ότι, λόγω της στενής αλληλεπίδρασης κατά την εκπαίδευση των δύο μοντέλων, η τελική πολιτική του SAC διαφέρει σημαντικά από τη βέλτιστη πολιτική SAC (δηλαδή εκείνη που προκύπτει αποκλειστικά από το SAC). Αυτή η διαφορά γίνεται εντονότερη όσο αυξάνεται η πολυπλοκότητα της πειραματικής ρύθμισης, όπως ήταν αναμενόμενο. Παρόλα αυτά, η αλληλεπίδραση των δύο μοντέλων οδηγεί σε σύγκλιση προς πολιτικές που, αν και δεν είναι απαραίτητα βέλτιστες, είναι ερμηνεύσιμες. Μάλιστα, τα αποτελέσματα δείχνουν ότι η τελική πολιτική του SAC και οι προβλέψεις του μοντέλου XGBoost ευθυγραμμίζονται στενά, καθιστώντας τα εναλλάξιμα, ανεξαρτήτως της πολυπλοκότητας της πειραματικής ρύθμισης.
Αυτή η διπλωματική εργασία συνεισφέρει εισάγοντας ένα νέο πλαίσιο που υποστηρίζει την ενσωμάτωση ερμηνεύσιμων μοντέλων πολιτικής σε μεθόδους Βαθιάς Ενισχυτικής Μάθησης. Αυτό επιτυγχάνεται μέσω της αλληλεπίδρασης των μοντέλων πολιτικής του SAC και του XGBoost μέσω της μεθόδου βελτιστοποίησης Dual Gradient Descent, ενώ παρέχονται αποτελέσματα σχετικά με τον συμβιβασμό ανάμεσα στη βέλτιστη απόδοση και την ερμηνευσιμότητα των πολιτικών. | el |
dc.format.extent | 69 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Explainable deep reinforcement learning via online mimicking | el |
dc.title.alternative | Ερμηνεύσιμη βαθιά ενισχυτική μάθηση με ταυτόχρονη μίμηση | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | This study aims to propose a method for training interpretable reinforcement learning policies in continuous state-action spaces, in close interplay with the original deep models, and to examine the effects that the training of interpretable policy models have on the original models. Thus, the objective is to validate the feasibility of this method while examining the trade-offs between the optimality and interpretability of policy models. This extends previous work in the field of Explainable Deep Reinforcement Learning (XDRL). The work completed so far has focused on XDQN (Explainable Deep Q-Networks) as well as on the interpretability of Actor-Critic methods in discrete action spaces, without considering the trade-off between optimality and interpretability.
Specifically, in the proposed framework, during the training process, the original and interpretable policy models - from Soft Actor-Critic (SAC) and XGBoost , respectively - interact by influencing each other’s training. The XGBoost model is trained to closely approximate the SAC policy model, after which SAC is fine-tuned towards the XGBoost model to minimize the difference in predictions and, therefore, increase the fidelity of the interpretable model. This latter step is achieved using the Dual Gradient Descent method, used in constrained optimization problems.
All experiments are conducted using the OpenAI Gym environment, in four settings with continuous action spaces of increasing dimensionality, to evaluate the framework’s effectiveness. It is observed that, due to the training of both models in close interplay, the final SAC policy differs significantly from the optimal SAC policy (the one that is learned by SAC alone). This difference increases as the complexity of the experimental setting increases, as expected. However, this interplay between the two models leads to convergence on policies that, while not necessarily optimal, are interpretable. Indeed, the results demonstrate that the final SAC’s policy and the XGBoost model’s predictions are closely aligned, allowing them to be interchangeable regardless of the experimental setting complexity.
This thesis contributes by introducing a novel framework that supports integrating interpretable policy models into Deep Reinforcement Learning methods. It demonstrates this through the interaction of SAC and XGBoost policy models via the Dual Gradient Descent optimization method, while providing results on the trade-off between the optimality and interpretability of policies. | el |
dc.corporate.name | National Center of Scientific Research "Demokritos" | el |
dc.contributor.master | Τεχνητή Νοημοσύνη - Artificial Intelligence | el |
dc.subject.keyword | Explainable Deep Reinforcement Learning (XDRL) | el |
dc.subject.keyword | Soft Actor-Critic (SAC) | el |
dc.subject.keyword | Dual gradient descent | el |
dc.subject.keyword | XGBoost | el |
dc.subject.keyword | Continuous state-action spaces | el |
dc.subject.keyword | Optimality-interpretability trade-off | el |
dc.date.defense | 2025-01-13 | |