Εμφάνιση απλής εγγραφής

Explainable deep reinforcement learning via online mimicking

dc.contributor.advisorVouros, George
dc.contributor.advisorΒούρος, Γεώργιος
dc.contributor.authorMakris, Nikolaos
dc.contributor.authorΜακρής, Νικόλαος
dc.date.accessioned2025-02-10T12:09:05Z
dc.date.available2025-02-10T12:09:05Z
dc.date.issued2025-01
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/17444
dc.descriptionNot available until 28/02/2026
dc.description.abstractΑυτή η μελέτη προτείνει μια μέθοδο για την εκπαίδευση ερμηνεύσιμων πολιτικών ενισχυτικής μάθησης σε συνεχείς χώρους δράσης, σε στενή αλληλεπίδραση με τα αρχικά βαθιά μοντέλα, εξετάζοντας παράλληλα τις επιπτώσεις της εκπαίδευσης των ερμηνεύσιμων πολιτικών στα αρχικά μοντέλα. Στόχος είναι να επιβεβαιωθεί η εφικτότητα της προτεινόμενης μεθόδου, εξετάζοντας παράλληλα τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας των μοντέλων πολιτικής. Η εργασία αυτή επεκτείνει προηγούμενες μελέτες στον τομέα της Ερμηνεύσιμης Βαθιάς Ενισχυτικής Μάθησης (Explainable Deep Reinforcement Learning – XDRL). Η μέχρι σήμερα έρευνα επικεντρώνεται στο XDQN (Explainable Deep Q-Networks) καθώς και στην ερμηνευσιμότητα των μεθόδων Actor-Critic σε διακριτούς χώρους δράσης, χωρίς να λαμβάνει υπόψη τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας. Συγκεκριμένα, στο προτεινόμενο πλαίσιο, κατά τη διαδικασία εκπαίδευσης, τα αρχικά και τα ερμηνεύσιμα μοντέλα πολιτικής – συγκεκριμένα το Soft Actor-Critic (SAC) και το XGBoost – αλληλεπιδρούν, επηρεάζοντας την εκπαίδευση το ένα του άλλου. Το μοντέλο XGBoost εκπαιδεύεται ώστε να προσεγγίζει με ακρίβεια την πολιτική του SAC, και στη συνέχεια το SAC επαναπροσαρμόζεται για να ευθυγραμμιστεί περισσότερο με το XGBoost, ώστε να ελαχιστοποιηθεί η διαφορά στις προβλέψεις και, συνεπώς, να αυξηθεί η πιστότητα του ερμηνεύσιμου μοντέλου. Αυτό το τελευταίο βήμα επιτυγχάνεται χρησιμοποιώντας τη μέθοδο Dual Gradient Descent, που χρησιμοποιείται σε προβλήματα βελτιστοποίησης με περιορισμούς. Όλα τα πειράματα πραγματοποιήθηκαν στο περιβάλλον OpenAI Gym, χρησιμοποιώντας τέσσερις ρυθμίσεις με συνεχείς χώρους δράσης αυξανόμενης διαστασιμότητας, με στόχο την αξιολόγηση της αποτελεσματικότητας του πλαισίου. Διαπιστώθηκε ότι, λόγω της στενής αλληλεπίδρασης κατά την εκπαίδευση των δύο μοντέλων, η τελική πολιτική του SAC διαφέρει σημαντικά από τη βέλτιστη πολιτική SAC (δηλαδή εκείνη που προκύπτει αποκλειστικά από το SAC). Αυτή η διαφορά γίνεται εντονότερη όσο αυξάνεται η πολυπλοκότητα της πειραματικής ρύθμισης, όπως ήταν αναμενόμενο. Παρόλα αυτά, η αλληλεπίδραση των δύο μοντέλων οδηγεί σε σύγκλιση προς πολιτικές που, αν και δεν είναι απαραίτητα βέλτιστες, είναι ερμηνεύσιμες. Μάλιστα, τα αποτελέσματα δείχνουν ότι η τελική πολιτική του SAC και οι προβλέψεις του μοντέλου XGBoost ευθυγραμμίζονται στενά, καθιστώντας τα εναλλάξιμα, ανεξαρτήτως της πολυπλοκότητας της πειραματικής ρύθμισης. Αυτή η διπλωματική εργασία συνεισφέρει εισάγοντας ένα νέο πλαίσιο που υποστηρίζει την ενσωμάτωση ερμηνεύσιμων μοντέλων πολιτικής σε μεθόδους Βαθιάς Ενισχυτικής Μάθησης. Αυτό επιτυγχάνεται μέσω της αλληλεπίδρασης των μοντέλων πολιτικής του SAC και του XGBoost μέσω της μεθόδου βελτιστοποίησης Dual Gradient Descent, ενώ παρέχονται αποτελέσματα σχετικά με τον συμβιβασμό ανάμεσα στη βέλτιστη απόδοση και την ερμηνευσιμότητα των πολιτικών.el
dc.format.extent69el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleExplainable deep reinforcement learning via online mimickingel
dc.title.alternativeΕρμηνεύσιμη βαθιά ενισχυτική μάθηση με ταυτόχρονη μίμησηel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENThis study aims to propose a method for training interpretable reinforcement learning policies in continuous state-action spaces, in close interplay with the original deep models, and to examine the effects that the training of interpretable policy models have on the original models. Thus, the objective is to validate the feasibility of this method while examining the trade-offs between the optimality and interpretability of policy models. This extends previous work in the field of Explainable Deep Reinforcement Learning (XDRL). The work completed so far has focused on XDQN (Explainable Deep Q-Networks) as well as on the interpretability of Actor-Critic methods in discrete action spaces, without considering the trade-off between optimality and interpretability. Specifically, in the proposed framework, during the training process, the original and interpretable policy models - from Soft Actor-Critic (SAC) and XGBoost , respectively - interact by influencing each other’s training. The XGBoost model is trained to closely approximate the SAC policy model, after which SAC is fine-tuned towards the XGBoost model to minimize the difference in predictions and, therefore, increase the fidelity of the interpretable model. This latter step is achieved using the Dual Gradient Descent method, used in constrained optimization problems. All experiments are conducted using the OpenAI Gym environment, in four settings with continuous action spaces of increasing dimensionality, to evaluate the framework’s effectiveness. It is observed that, due to the training of both models in close interplay, the final SAC policy differs significantly from the optimal SAC policy (the one that is learned by SAC alone). This difference increases as the complexity of the experimental setting increases, as expected. However, this interplay between the two models leads to convergence on policies that, while not necessarily optimal, are interpretable. Indeed, the results demonstrate that the final SAC’s policy and the XGBoost model’s predictions are closely aligned, allowing them to be interchangeable regardless of the experimental setting complexity. This thesis contributes by introducing a novel framework that supports integrating interpretable policy models into Deep Reinforcement Learning methods. It demonstrates this through the interaction of SAC and XGBoost policy models via the Dual Gradient Descent optimization method, while providing results on the trade-off between the optimality and interpretability of policies.el
dc.corporate.nameNational Center of Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordExplainable Deep Reinforcement Learning (XDRL)el
dc.subject.keywordSoft Actor-Critic (SAC)el
dc.subject.keywordDual gradient descentel
dc.subject.keywordXGBoostel
dc.subject.keywordContinuous state-action spacesel
dc.subject.keywordOptimality-interpretability trade-offel
dc.date.defense2025-01-13


Αρχεία σε αυτό το τεκμήριο

ΑρχείαΜέγεθοςΤύποςΠροβολή

Δεν υπάρχουν αρχεία που να σχετίζονται με αυτό το τεκμήριο.

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»