Explainable deep reinforcement learning via online mimicking
Ερμηνεύσιμη βαθιά ενισχυτική μάθηση με ταυτόχρονη μίμηση
Master Thesis
Συγγραφέας
Makris, Nikolaos
Μακρής, Νικόλαος
Ημερομηνία
2025-01Επιβλέπων
Vouros, GeorgeΒούρος, Γεώργιος
Λέξεις κλειδιά
Explainable Deep Reinforcement Learning (XDRL) ; Soft Actor-Critic (SAC) ; Dual gradient descent ; XGBoost ; Continuous state-action spaces ; Optimality-interpretability trade-offΠερίληψη
Αυτή η μελέτη προτείνει μια μέθοδο για την εκπαίδευση ερμηνεύσιμων πολιτικών ενισχυτικής μάθησης σε συνεχείς χώρους δράσης, σε στενή αλληλεπίδραση με τα αρχικά βαθιά μοντέλα, εξετάζοντας παράλληλα τις επιπτώσεις της εκπαίδευσης των ερμηνεύσιμων πολιτικών στα αρχικά μοντέλα. Στόχος είναι να επιβεβαιωθεί η εφικτότητα της προτεινόμενης μεθόδου, εξετάζοντας παράλληλα τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας των μοντέλων πολιτικής. Η εργασία αυτή επεκτείνει προηγούμενες μελέτες στον τομέα της Ερμηνεύσιμης Βαθιάς Ενισχυτικής Μάθησης (Explainable Deep Reinforcement Learning – XDRL). Η μέχρι σήμερα έρευνα επικεντρώνεται στο XDQN (Explainable Deep Q-Networks) καθώς και στην ερμηνευσιμότητα των μεθόδων Actor-Critic σε διακριτούς χώρους δράσης, χωρίς να λαμβάνει υπόψη τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας.
Συγκεκριμένα, στο προτεινόμενο πλαίσιο, κατά τη διαδικασία εκπαίδευσης, τα αρχικά και τα ερμηνεύσιμα μοντέλα πολιτικής – συγκεκριμένα το Soft Actor-Critic (SAC) και το XGBoost – αλληλεπιδρούν, επηρεάζοντας την εκπαίδευση το ένα του άλλου. Το μοντέλο XGBoost εκπαιδεύεται ώστε να προσεγγίζει με ακρίβεια την πολιτική του SAC, και στη συνέχεια το SAC επαναπροσαρμόζεται για να ευθυγραμμιστεί περισσότερο με το XGBoost, ώστε να ελαχιστοποιηθεί η διαφορά στις προβλέψεις και, συνεπώς, να αυξηθεί η πιστότητα του ερμηνεύσιμου μοντέλου. Αυτό το τελευταίο βήμα επιτυγχάνεται χρησιμοποιώντας τη μέθοδο Dual Gradient Descent, που χρησιμοποιείται σε προβλήματα βελτιστοποίησης με περιορισμούς.
Όλα τα πειράματα πραγματοποιήθηκαν στο περιβάλλον OpenAI Gym, χρησιμοποιώντας τέσσερις ρυθμίσεις με συνεχείς χώρους δράσης αυξανόμενης διαστασιμότητας, με στόχο την αξιολόγηση της αποτελεσματικότητας του πλαισίου. Διαπιστώθηκε ότι, λόγω της στενής αλληλεπίδρασης κατά την εκπαίδευση των δύο μοντέλων, η τελική πολιτική του SAC διαφέρει σημαντικά από τη βέλτιστη πολιτική SAC (δηλαδή εκείνη που προκύπτει αποκλειστικά από το SAC). Αυτή η διαφορά γίνεται εντονότερη όσο αυξάνεται η πολυπλοκότητα της πειραματικής ρύθμισης, όπως ήταν αναμενόμενο. Παρόλα αυτά, η αλληλεπίδραση των δύο μοντέλων οδηγεί σε σύγκλιση προς πολιτικές που, αν και δεν είναι απαραίτητα βέλτιστες, είναι ερμηνεύσιμες. Μάλιστα, τα αποτελέσματα δείχνουν ότι η τελική πολιτική του SAC και οι προβλέψεις του μοντέλου XGBoost ευθυγραμμίζονται στενά, καθιστώντας τα εναλλάξιμα, ανεξαρτήτως της πολυπλοκότητας της πειραματικής ρύθμισης.
Αυτή η διπλωματική εργασία συνεισφέρει εισάγοντας ένα νέο πλαίσιο που υποστηρίζει την ενσωμάτωση ερμηνεύσιμων μοντέλων πολιτικής σε μεθόδους Βαθιάς Ενισχυτικής Μάθησης. Αυτό επιτυγχάνεται μέσω της αλληλεπίδρασης των μοντέλων πολιτικής του SAC και του XGBoost μέσω της μεθόδου βελτιστοποίησης Dual Gradient Descent, ενώ παρέχονται αποτελέσματα σχετικά με τον συμβιβασμό ανάμεσα στη βέλτιστη απόδοση και την ερμηνευσιμότητα των πολιτικών.