Explainable reinforcement learning using interpretable models
Επεξηγήσιμη ενισχυτική μάθηση χρησιμοποιώντας ερμηνεύσιμα μοντέλα
Master Thesis
Συγγραφέας
Lykos, Emmanouil
Λύκος, Εμμανουήλ
Ημερομηνία
2024-02Επιβλέπων
Vouros, GeorgeΒούρος, Γεώργιος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ενισχυτική μάθηση ; Βαθιά ενισχυτική μάθηση ; Ερμηνεύσιμη μηχανική μάθηση ; Actor-critic μέθοδοιΠερίληψη
Οι μέθοδοι Βαθιάς Ενισχυτικής Μάθησης έχουν επιτύχει υψηλές επιδόσεις στον τομέα της Τεχνητής Νοημοσύνης σε διάφορους τομείς όπως τα βιντεοπαιχνίδια και την αυτόνομη οδήγηση. Αυτές οι μέθοδοι ενσωματώνουν τις δυνατότητες των Βαθιών Νευρωνικών Δικτύων σε γνωστές μεθόδους Ενισχυτικής Μάθησης που υπάγονται στην κατηγορία των μεθόδων Function Approximation. Παρόλο που η απόδοση των πρακτόρων είναι εξαιρετική σε πολλές περιπτώσεις, οι μηχανισμοί λήψης των αποφάσεών τους θεωρούνται αδύνατο να ερμηνευτούν, επομένως, υπάρχει ανάγκη από μηχανικούς λογισμικού, προγραμματιστές, ειδικούς, operators κ.λπ. να ερμηνεύσουν σε διαφορετικά επίπεδα τη λειτουργία αυτών των μεθόδων για να παρέχουν εξηγήσεις για τις αποφάσεις τους.
Η συνεισφορά αυτής της διπλωματικής εργασίας είναι μια μέθοδος που παράγει ερμηνεύσιμα μοντέλα σχετικά με τη λήψη αποφάσεων των πρακτόρων Βαθιάς Ενισχυτικής Μάθησης οι οποίοι δρουν σε περιβάλλοντα με συνεχείς χώρους δράσης. Αρχικά, θα καθορίσουμε τυπικά το πρόβλημα το οποίο λύνουμε στην παρούσα διπλωματική εργασία μαζί με τις τρέχουσες επιστημονικές συνεισφορές προς αυτή την κατεύθυνση και τις επιπλέον επιστημονικές συνεισφορές της παρούσας διπλωματικής εργασίας. Στη συνέχεια, θα παραθέσουμε τις απαραίτητες βασικές γνώσεις ώστε ο αναγνώστης να κατανοήσει την προτεινόμενη μέθοδο, περιγράφοντας αρχικά τον τρόπο λειτουργίας των ερμηνεύσιμων μοντέλων που χρησιμοποιούμε και στη συνέχεια θα παρουσιάσουμε τη μέθοδο Twin Delayed Policy Gradient, η οποία είναι μια μέθοδος Βαθιάς Ενισχυτικής Μάθησης που εμπίπτει στην κατηγορία των Actor-Critic μεθόδων, με σκοπό να την τροποποιήσουμε για να δημιουργήσουμε ερμηνεύσιμα μοντέλα πολιτικής. Στη συνέχεια, παρουσιάζουμε τη μέθοδό μας που ακολουθεί το παράδειγμα του mimicking στην οποία αντικαθιστούμε το target νευρωνικό δίκτυο μοντέλο πολιτικής με ένα ερμηνεύσιμο μοντέλο, μαζί με τις επιπλεόν τροποποιήσεις που μπορούμε να εφαρμόσουμε στην αρχική μέθοδο. Στη συνέχεια, η μέθοδός μας αξιολογείται σε διάφορα περιβάλλοντα χρησιμοποιώντας την βιβλιοθήκη Gymnasium και η απόδοσή της συγκρίνεται με αυτή του primary νευρωνικού μοντέλου πολιτικής που εκπαιδεύτηκε από την αρχική μέθοδο Twin-Delayed Policy Gradient, τόσο όσον αφορά την καμπύλη μάθησης όσο και την αυτόνομη απόδοση του παραγόμενου primary νευρωνικού δικτύου πολιτικής και του ερμηνεύσιμου μοντέλου πολιτικής που μιμείται το πρώτο, προκειμένου να αξιολογηθεί η ποιότητα των παραγόμενων ερμηνειών. Η απόδοση της πολιτικής των παραγόμενων πρακτόρων με τη μέθοδο Ερμηνεύσιμης Ενισχυτικής Μάθησης που παρουσιάσαμε, δείχνει ότι συναγωνίζεται την απόδοση εκείνων που προέκυψαν από την αρχική μη ερμηνεύσιμη μέθοδο, ωστόσο με περιορισμούς. Τέλος, δικαιολογούμε τα αποτελέσματα, παραθέτουμε τα συμπεράσματά μας και παρέχουμε κατευθύνσεις για μελλοντική εργασία σε αυτό τον τομέα.