Εμφάνιση απλής εγγραφής

Explainable reinforcement learning using interpretable models

dc.contributor.advisorVouros, George
dc.contributor.advisorΒούρος, Γεώργιος
dc.contributor.authorLykos, Emmanouil
dc.contributor.authorΛύκος, Εμμανουήλ
dc.date.accessioned2024-03-12T10:33:42Z
dc.date.available2024-03-12T10:33:42Z
dc.date.issued2024-02
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/16270
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/3692
dc.description.abstractΟι μέθοδοι Βαθιάς Ενισχυτικής Μάθησης έχουν επιτύχει υψηλές επιδόσεις στον τομέα της Τεχνητής Νοημοσύνης σε διάφορους τομείς όπως τα βιντεοπαιχνίδια και την αυτόνομη οδήγηση. Αυτές οι μέθοδοι ενσωματώνουν τις δυνατότητες των Βαθιών Νευρωνικών Δικτύων σε γνωστές μεθόδους Ενισχυτικής Μάθησης που υπάγονται στην κατηγορία των μεθόδων Function Approximation. Παρόλο που η απόδοση των πρακτόρων είναι εξαιρετική σε πολλές περιπτώσεις, οι μηχανισμοί λήψης των αποφάσεών τους θεωρούνται αδύνατο να ερμηνευτούν, επομένως, υπάρχει ανάγκη από μηχανικούς λογισμικού, προγραμματιστές, ειδικούς, operators κ.λπ. να ερμηνεύσουν σε διαφορετικά επίπεδα τη λειτουργία αυτών των μεθόδων για να παρέχουν εξηγήσεις για τις αποφάσεις τους. Η συνεισφορά αυτής της διπλωματικής εργασίας είναι μια μέθοδος που παράγει ερμηνεύσιμα μοντέλα σχετικά με τη λήψη αποφάσεων των πρακτόρων Βαθιάς Ενισχυτικής Μάθησης οι οποίοι δρουν σε περιβάλλοντα με συνεχείς χώρους δράσης. Αρχικά, θα καθορίσουμε τυπικά το πρόβλημα το οποίο λύνουμε στην παρούσα διπλωματική εργασία μαζί με τις τρέχουσες επιστημονικές συνεισφορές προς αυτή την κατεύθυνση και τις επιπλέον επιστημονικές συνεισφορές της παρούσας διπλωματικής εργασίας. Στη συνέχεια, θα παραθέσουμε τις απαραίτητες βασικές γνώσεις ώστε ο αναγνώστης να κατανοήσει την προτεινόμενη μέθοδο, περιγράφοντας αρχικά τον τρόπο λειτουργίας των ερμηνεύσιμων μοντέλων που χρησιμοποιούμε και στη συνέχεια θα παρουσιάσουμε τη μέθοδο Twin Delayed Policy Gradient, η οποία είναι μια μέθοδος Βαθιάς Ενισχυτικής Μάθησης που εμπίπτει στην κατηγορία των Actor-Critic μεθόδων, με σκοπό να την τροποποιήσουμε για να δημιουργήσουμε ερμηνεύσιμα μοντέλα πολιτικής. Στη συνέχεια, παρουσιάζουμε τη μέθοδό μας που ακολουθεί το παράδειγμα του mimicking στην οποία αντικαθιστούμε το target νευρωνικό δίκτυο μοντέλο πολιτικής με ένα ερμηνεύσιμο μοντέλο, μαζί με τις επιπλεόν τροποποιήσεις που μπορούμε να εφαρμόσουμε στην αρχική μέθοδο. Στη συνέχεια, η μέθοδός μας αξιολογείται σε διάφορα περιβάλλοντα χρησιμοποιώντας την βιβλιοθήκη Gymnasium και η απόδοσή της συγκρίνεται με αυτή του primary νευρωνικού μοντέλου πολιτικής που εκπαιδεύτηκε από την αρχική μέθοδο Twin-Delayed Policy Gradient, τόσο όσον αφορά την καμπύλη μάθησης όσο και την αυτόνομη απόδοση του παραγόμενου primary νευρωνικού δικτύου πολιτικής και του ερμηνεύσιμου μοντέλου πολιτικής που μιμείται το πρώτο, προκειμένου να αξιολογηθεί η ποιότητα των παραγόμενων ερμηνειών. Η απόδοση της πολιτικής των παραγόμενων πρακτόρων με τη μέθοδο Ερμηνεύσιμης Ενισχυτικής Μάθησης που παρουσιάσαμε, δείχνει ότι συναγωνίζεται την απόδοση εκείνων που προέκυψαν από την αρχική μη ερμηνεύσιμη μέθοδο, ωστόσο με περιορισμούς. Τέλος, δικαιολογούμε τα αποτελέσματα, παραθέτουμε τα συμπεράσματά μας και παρέχουμε κατευθύνσεις για μελλοντική εργασία σε αυτό τον τομέα.el
dc.format.extent62el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.titleExplainable reinforcement learning using interpretable modelsel
dc.title.alternativeΕπεξηγήσιμη ενισχυτική μάθηση χρησιμοποιώντας ερμηνεύσιμα μοντέλαel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENDeep Reinforcement Learning methods achieved new milestones in the field of Artificial Intelligence in various domains like gaming and autonomous driving. Those methods incorporate the capabilities of Deep Neural Networks into well known function approximation Reinforcement Learning methods. Although agents' performance is excellent in many cases, their decision-making mechanisms are considered black boxes, therefore, there is a need for software engineers, developers, domain experts, operators etc. to interpret in different levels the inner working of these methods to provide explanations. The contribution of this thesis is a method that inherently generates interpretable models regarding the decision making of Deep Reinforcement Learning agents which are operating in environments with continuous action spaces. Initially, we will specify the problem that we are solving in a formal way and the scope of this thesis along with the current scientific contributions in that direction and what are the contributions of this thesis. Then, we will provide the necessary background knowledge in order for the reader to understand the proposed method, by firstly describing the interpretable models that we are using and then by presenting the Twin Delayed Policy Gradient method, which is the Actor-Critic Deep Reinforcement Learning method that we aim to modify in order to generate interpretable policy models. Afterwards, we specify our method which follows the mimicking paradigm and replaces the target policy neural network model with an interpretable one, along with the various modifications that we can apply. Afterwards, our method gets evaluated in various environments using Gymnasium and gets compared with the primary policy model that was trained from the original Twin-Delayed Policy Gradient method, both in terms of the learning curve and the standalone performance of the generated primary neural network policy model and the interpretable policy model mimicking it, in order to evaluate interpretations' quality. The performance of agents with the interpretable method is shown to be competitive with comparison to the ones generated from the original non-interpretable method, however with limitations. Last but not least, we justify the results, draw our conclusions and provide directions for future work in this field.el
dc.corporate.nameNational Center of Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordΕνισχυτική μάθησηel
dc.subject.keywordΒαθιά ενισχυτική μάθησηel
dc.subject.keywordΕρμηνεύσιμη μηχανική μάθησηel
dc.subject.keywordActor-critic μέθοδοιel
dc.date.defense2024-02-29


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής


Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»