Εμφάνιση απλής εγγραφής

Solving long-horizon tasks via imitation and reinforcement learning

dc.contributor.advisorVouros, George
dc.contributor.advisorΒούρος, Γεώργιος
dc.contributor.authorLappa, Athanasia
dc.contributor.authorΛάππα, Αθανασία
dc.date.accessioned2024-03-27T08:14:34Z
dc.date.available2024-03-27T08:14:34Z
dc.date.issued2024-02
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/16309
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/3731
dc.description.abstractΑυτή η διπλωματική διερευνά τη χρήση του αλγορίθμου Relay Policy Learning (RPL) που προτείνεται από τους Gupta et al. [1], με στόχο την μοντελοποίηση της πρόβλεψης τροχιών αεροσκαφών, σε ένα αεροπορικό περιβάλλον. Ο αλγόριθμος RPL είναι μια προσέγγιση δύο φάσεων, στην πρώτη φάση χρησιμοποιεί έναν αλγόριθμο μάθησης με ιεραρχική μίμηση (Hierarchical Imitation Learning - HIL), ενώ στην δεύτερη φάση χρησιμοποιεί έναν αλγόριθμο ιεραρχικής ενισχυτικής μάθησης (Hierarchical Reinforcement Learning - HRL). Σκοπός αυτής της μεταπτυχιακής διπλωματικής εργασίας είναι να χρησιμοποιήσει τον εκπαιδευμένο πράκτορα από το RPL αλγόριθμο, για να προβλέψει την τροχιά ενός αεροσκάφους. Αρχικά, η εκπαίδευση του πράκτορα γίνεται με μη δομημένα δεδομένα, δηλαδή χωρίς να απαιτείται οι στόχοι του πράκτορα να έχουν καθοριστεί εκ των προτέρων. Η διατριβή χρησιμοποιεί ένα σύνολο δεδομένων με τροχιές αεροσκαφών. Αυτά υποβάλλονται σε προ-επεξεργασία για τη διόρθωση ατελειών και στην συνέχεια για τη δημιουργία συνόλων δεδομένων χαμηλού και υψηλού επιπέδου μέσω του αλγορίθμου επαύξησης δεδομένων (relay-data-relabelling augmentation) του RPL. Στην συνέχεια, τα σύνολα χαμηλού και υψηλού επιπέδου χρησιμοποιούνται για την εκμάθηση πολιτικών με μάθηση ιεραρχικής μίμησης (Hierarchical Imitation Learning - HIL), χρησιμοποιώντας έναν αλγόριθμο μίμησης βασισμένο σε στόχο (goal-conditioned Behavior Cloning – goal BC). Αυτό παρέχει μια αρχικοποίηση πολιτικής του πράκτορα για την επακόλουθη λεπτομερή εκμάθηση με χρήση του αλγόριθμου Trust Region Policy Optimization (TRPO) των Schulman et al. [4]. Στη συνέχεια, ο εκπαιδευμένος πράκτορας δοκιμάζεται και αξιολογείται. Η διπλωματική εργασία ολοκληρώνεται με μια παρουσίαση των αποτελεσμάτων και προτάσεις για περαιτέρω εργασία για την επέκταση του αλγορίθμου RPL με αλγόριθμους ενισχυτικής μάθησης εκτός πολιτικής (off-policy Reinforcement Learning).el
dc.format.extent68el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.titleSolving long-horizon tasks via imitation and reinforcement learningel
dc.title.alternativeΕκτέλεση διαδικασιών μεγάλου χρονικού ορίζοντα με ενισχυτική μάθηση και μάθηση μέσω μίμησηςel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENThis thesis explores the use of the Relay Policy Learning (RPL) algorithm proposed by Gupta et al. [1], to model trajectory prediction in an aviation environment. RPL is a twophase approach consisting of a Hierarchical Imitation Learning (HIL) and Hierarchical Reinforcement Learning (HRL) algorithms. The purpose of this thesis is to model a policy learnt through RPL, to predict the aircraft trajectory. This is done through learning goalconditioned hierarchical policies from unstructured and unsegmented demonstrations. This thesis utilizes a dataset with long aircraft trajectories. These are pre-processed to correct imperfections and to create low-level and high-level datasets from these demonstrations through the relay-data-relabelling augmentation of the RPL algorithm. Then the created datasets are used to learn hierarchical Imitation Learning (IL) policies without explicit goal labelling using the goal-conditioned Behavior Cloning (BC) method. This provides a policy initialization for subsequent relay reinforcement fine -tuning using a variant of the Trust Region Policy Optimization (TRPO) on-policy algorithm proposed by Schulman et al. [4]. Then, the implemented agent is tested and evaluated. The thesis concludes with a presentation of results and proposals for further work towards extending the RPL algorithm to work with off-policy RL algorithms.el
dc.corporate.nameNational Center of Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordImitation learningel
dc.subject.keywordReinforcement learningel
dc.subject.keywordBehavior cloningel
dc.subject.keywordTrust region policy optimizationel
dc.subject.keywordRelay policy learningel
dc.subject.keywordDeep neural networkel
dc.subject.keywordMachine learningel
dc.date.defense2024-02-29


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής


Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»