Hidden variables’ estimation of trajectories' states using imitation learning
Πρόβλεψη παραμέτρων σε καταστάσεις τροχιών με τη χρήση μιμητικής μάθησης
Master Thesis
Συγγραφέας
Patiniotis Spyropoulos, Dimitrios
Πατηνιώτης Σπυρόπουλος, Δημήτριος
Ημερομηνία
2024-02Επιβλέπων
Vouros, GeorgeΒούρος, Γεώργιος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Inverse Reinforcement Learning ; Generative Adversarial Imitation Learning ; Trust Region Policy Optimization ; Proximal Policy OptimizationΠερίληψη
Η πρόβλεψη της τροχιάς είναι ένα κρίσιμο πρόβλημα με βαθιές επιπτώσεις σε διάφορους τομείς, από τα αυτόνομα οχήματα και τη ρομποτική μέχρι την αεροδιαστημική και τη θαλάσσια ναυσιπλοΐα. Σε αυτή τη διπλωματική εργασία θα εξετάσουμε αεροπορικές τροχιές από το Παρίσι στην Κωνσταντινούπολη. Οι τροχιές πτήσης προϋποθέτουν πλοήγηση μέσα από διάφορους πολύπλοκους παράγοντες, όπως οι ποικίλες διαμορφώσεις του εναέριου χώρου, η συμμόρφωση με τους διεθνείς κανονισμούς εναέριας κυκλοφορίας και η προσαρμοστικότητα στις δυναμικές καιρικές συνθήκες. Η διερεύνησή μας αξιοποιεί τη Μιμητική Μάθηση (Imitation Learning) εστιάζοντας στον αλγόριθμο GAIL (Generative Adversial Imitation Learning), για την αντιμετώπιση του προβλήματος πρόβλεψης τροχιάς αξιοποιώντας παραδείγματα τροχιών. Συγκεκριμένα, μελετάμε τη σχετική απόδοση δύο από τους πιο συνηθισμένους αλγορίθμους βελτιστοποίησης πολιτικής, του TRPO (Trust Region Policy Optimization) και του αλγορίθμου PPO (Proximal Policy Optimization), στο πλαίσιο του GAIL. Τα ευρήματά μας αναδεικνύουν σαφώς την ανώτερη απόδοση του TRPO έναντι του PPO στο πλαίσιο GAIL, σηματοδοτώντας την κύρια συμβολή της έρευνάς μας. Αυτό αξιολογείται μέσω του ρυθμού μάθησης ανά εποχή, της ταχύτητας εκπαίδευσης κάθε παραγωγικού βελτιστοποιητή και της τελικής απόδοσης του GAIL. Επιπλέον, εξετάζουμε πώς η χρήση περισσότερων του ενός πρακτόρων για την πρόβλεψη των κρυφών μεταβλητών της τροχιάς επηρεάζει την ακρίβεια της ρύθμισής μας. Ένας επιπρόσθετος στόχος αυτής της διπλωματικής εργασίας πέρα από τη μίμηση χωροχρονικών τροχιών, είναι η εκμάθηση μοντέλων μίμησης κρίσιμων KPIs (Key Performance Indicators) (π.χ. κατανάλωση καυσίμων) των τροχιών πτήσης και η εξέταση της επίδρασης της μιμητικής μάθησης χωροχρονικών τροχιών στην πρόβλεψη αυτών των KPIs. Η ανάδειξη των ανώτερων επιδόσεων του TRPO στο πλαίσιο GAIL υπογραμμίζει την κύρια συμβολή της έρευνάς μας.