Εμφάνιση απλής εγγραφής

Hidden variables’ estimation of trajectories' states using imitation learning

dc.contributor.advisorVouros, George
dc.contributor.advisorΒούρος, Γεώργιος
dc.contributor.authorPatiniotis Spyropoulos, Dimitrios
dc.contributor.authorΠατηνιώτης Σπυρόπουλος, Δημήτριος
dc.date.accessioned2024-04-16T04:50:44Z
dc.date.available2024-04-16T04:50:44Z
dc.date.issued2024-02
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/16392
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/3814
dc.description.abstractΗ πρόβλεψη της τροχιάς είναι ένα κρίσιμο πρόβλημα με βαθιές επιπτώσεις σε διάφορους τομείς, από τα αυτόνομα οχήματα και τη ρομποτική μέχρι την αεροδιαστημική και τη θαλάσσια ναυσιπλοΐα. Σε αυτή τη διπλωματική εργασία θα εξετάσουμε αεροπορικές τροχιές από το Παρίσι στην Κωνσταντινούπολη. Οι τροχιές πτήσης προϋποθέτουν πλοήγηση μέσα από διάφορους πολύπλοκους παράγοντες, όπως οι ποικίλες διαμορφώσεις του εναέριου χώρου, η συμμόρφωση με τους διεθνείς κανονισμούς εναέριας κυκλοφορίας και η προσαρμοστικότητα στις δυναμικές καιρικές συνθήκες. Η διερεύνησή μας αξιοποιεί τη Μιμητική Μάθηση (Imitation Learning) εστιάζοντας στον αλγόριθμο GAIL (Generative Adversial Imitation Learning), για την αντιμετώπιση του προβλήματος πρόβλεψης τροχιάς αξιοποιώντας παραδείγματα τροχιών. Συγκεκριμένα, μελετάμε τη σχετική απόδοση δύο από τους πιο συνηθισμένους αλγορίθμους βελτιστοποίησης πολιτικής, του TRPO (Trust Region Policy Optimization) και του αλγορίθμου PPO (Proximal Policy Optimization), στο πλαίσιο του GAIL. Τα ευρήματά μας αναδεικνύουν σαφώς την ανώτερη απόδοση του TRPO έναντι του PPO στο πλαίσιο GAIL, σηματοδοτώντας την κύρια συμβολή της έρευνάς μας. Αυτό αξιολογείται μέσω του ρυθμού μάθησης ανά εποχή, της ταχύτητας εκπαίδευσης κάθε παραγωγικού βελτιστοποιητή και της τελικής απόδοσης του GAIL. Επιπλέον, εξετάζουμε πώς η χρήση περισσότερων του ενός πρακτόρων για την πρόβλεψη των κρυφών μεταβλητών της τροχιάς επηρεάζει την ακρίβεια της ρύθμισής μας. Ένας επιπρόσθετος στόχος αυτής της διπλωματικής εργασίας πέρα από τη μίμηση χωροχρονικών τροχιών, είναι η εκμάθηση μοντέλων μίμησης κρίσιμων KPIs (Key Performance Indicators) (π.χ. κατανάλωση καυσίμων) των τροχιών πτήσης και η εξέταση της επίδρασης της μιμητικής μάθησης χωροχρονικών τροχιών στην πρόβλεψη αυτών των KPIs. Η ανάδειξη των ανώτερων επιδόσεων του TRPO στο πλαίσιο GAIL υπογραμμίζει την κύρια συμβολή της έρευνάς μας.el
dc.format.extent66el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-sa/3.0/gr/*
dc.titleHidden variables’ estimation of trajectories' states using imitation learningel
dc.title.alternativeΠρόβλεψη παραμέτρων σε καταστάσεις τροχιών με τη χρήση μιμητικής μάθησηςel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENTrajectory prediction is a critical problem with profound implications across various domains, from autonomous vehicles and robotics to aerospace and maritime navigation. In this thesis we will be examining trajectories from Paris to Constantinople. Flight trajectories entail navigating through various complexities, including diverse airspace configurations, compliance with international air traffic regulations, and adaptability to dynamic weather conditions. This thesis examines trajectories from Paris to Constantinople, where flight trajectories entail navigating through various complexities, including diverse airspace configurations, compliance with international air traffic regulations, and adaptability to dynamic weather conditions. Our exploration leverages Imitation Learning, focusing on Generative Adversarial Imitation Learning (GAIL), to tackle the trajectory prediction problem in the field of aviation. Specifically, we study the relative performance of two of the most common policy optimization algorithms, Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization (PPO), in the context of GAIL. Our findings distinctly highlight TRPO's superior performance over PPO within the GAIL framework, marking the main contribution of our research. This is evaluated through the rate of learning per epoch, the training speed of each optimizer, and the final performance of GAIL configured with each algorithm. Additionally, we examine how using more than one agent to predict the hidden variables of the trajectory affects the accuracy of our setup. An additional goal for this thesis was not to imitate spatio-temporal trajectories per se, but to also learn models for imitating critical KPIs (e.g. fuel consumption) of flight trajectories and examine the impact of learning to imitate spatio-temporal trajectories to predicting these KPIs. Highlighting TRPO's superior performance in the GAIL context underscores the main contribution of our research.el
dc.corporate.nameNational Centre for Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordInverse Reinforcement Learningel
dc.subject.keywordGenerative Adversarial Imitation Learningel
dc.subject.keywordTrust Region Policy Optimizationel
dc.subject.keywordProximal Policy Optimizationel
dc.date.defense2024-02-28


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»