Βελτιστοποίηση αναπλήρωσης αποθεμάτων με ενισχυτική μάθηση : ανάπτυξη και αξιολόγηση περιβάλλοντος προσομοίωσης
Optimization of inventory replenishment with reinforcement learning : development and evaluation of a simulation environment

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Αναπλήρωση αποθεμάτων ; Ενισχυτική μάθηση ; Reinforcement learning ; A2C ; PPOΠερίληψη
Η παρούσα πτυχιακή εργασία
μελετά τη βελτιστοποίηση της διαχείρισης αποθεμάτων
μέσω τεχνικών Ενισχυτικής Μάθησης (Reinforcement Learning RL). Αναπτύσσεται ένα
προσαρμοσμένο προσομοιωτικό περιβάλλον βασισμένο σε ρεαλιστικά δεδομένα
πωλήσεων και διαδικασιών αναπλήρωσης στο οποίο πράκτορες εκμάθησης PPO
(Proximal Policy Optimization) και A2C (Advantage Actor Critic) εκπαιδεύονται με σκοπό τη
λήψη δυναμικών αποφάσεων αναπλήρωσης αποθεμάτων.
Η κατάσταση του περιβάλλοντος ενσωματώνει κρίσιμες μεταβλητές, όπως το τρέχον
διαθέσιμο απόθεμα, τη ζήτηση, τα αποθέματα υπό παραλαβή (in transit), τις δεσμευμένες
ποσότητες (reserved stock), καθώς και την τελευταία εντολή παραγγελίας. Οι πράκτορες
μαθαίνουν μέσω δοκιμής και σφάλματος να εξισορροπούν το κόστος υπεραποθέματος και
ελλείψεων (stockouts), μεγιστοποιώντας την αθροιστική ανταμοιβή (reward), η οποία
βασίζεται στην ικανοποίηση της ζήτησης, τη διαθεσιμότητα προϊόντων και την αποφυγή
ακραίων αποθεμάτων.
Η απόδοση των αλγορίθμων PPO και A2C αξιολογείται μέσω ποσοτικών μετρικών, όπως η
αθροιστική ανταμοιβή (cumulative reward), η σταθερότητα πολιτικής (policy stability),
καθώς και η διακύμανση στην κάλυψη της ζήτησης. Τα αποτελέσματα υποδεικνύουν ότι οι
πράκτορες ενισχυτικής μάθησης μπορούν να υπερβούν τις στατικές πολιτικές σε
περιβάλλοντα υψηλής αβεβαιότητας και δυναμικής ζήτησης.
Η εργασία συμβάλλει στην κατανόηση των εφαρμογών της ενισχυτικής μάθησης στη
διοικητική επιστήμη και αναδεικνύει τη χρησιμότητα προσεγγίσεων RL στη βελτιστοποίηση
εφοδιαστικής αλυσίδας υπό πραγματικές συνθήκες λειτουργίας.


