Εμφάνιση απλής εγγραφής

dc.contributor.authorΓκουλιώνης, Ιωάννης
dc.date.accessioned2016-06-29T08:09:50Z
dc.date.available2016-06-29T08:09:50Z
dc.date.issued2007
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/8881
dc.description.abstractOι μερικά παρατηρήσιμες Μαρκοβιανές διαδικασίεs αποφάσεων (POMDP) αποτελούν γενίκευση των Μαρκοβιανών διαδικασιών αποφάσεων (MDP),στιs οποίες οι καταστάσεις του συστήματος δεν είναι παρατηρήσιμες. Ο decision maker λαμβάνει κάποιο μήνυμα από ένα σύνολο μηνυμάτων στην αρχή κάθε χρονικής περιόδου και ακολούθως παίρνει μια απόφαση από ένα σύνολο εναλλακτικών αποφάσεων. Εκκινώντας από ένα διάνυσμα πληροφορίας (μία κατανομή πιθανότητας για τις καταστάσεις του συστήματος), αυτό τροποποιείται στην αρχή κάθε χρονικής περιόδου με την έλευση ενός μηνύματος μέσω του τύπου του Βayes,με βάση τον πίνακα μετάβασης καταστάσεων και τον πίνακα μηνυμάτων που αντιστοιχούν στην απόφαση που είχε ληφθεί την προηγούμενη χρονική περίοδο. Το διάνυσμα πληροφορίας ενσωματώνει όλη την πληροφορία της ιστορίας του συστήματος που είναι αναγκαία για την επιλογή μιας απόφασης στην αντίστοιχη χρονική περίοδο. Για προβλήματα κόστους (εσόδων) τα άμεσα κόστη (κέρδη) εξαρτώνται από την κατάσταση του συστήματος και από την απόφαση που επιλέγεται σε μία χρονική περίοδο. Σκοπός είναι ο υπολογισμός του ελάχιστου (μέγιστου) αναμενόμενου ολικού εκπίπτοντος κόστους (κέρδους) για πεπερασμένο ή άπειρο χρονικό ορίζοντα και ο προσδιορισμός της άριστης πολιτικής. Παρόλο που οι POMDP αποτελούν κατάλληλα υποδείγματα για πολλούς τομείς της ανθρώπινης δραστηριότητας, οι υπολογιστικές δυσκολίες καθιστούν την χρήση τους οριακή. Σε αυτό το πλαίσιο οι κύριοι στόχοι της διατριβής αυτής είναι οι ακόλουθοι: Πρώτον, η ανάπτυξη ευέλικτων αλγόριθμων για την εύρεση άριστων ή σχεδόν άριστων λύσεων τόσο για πεπερασμένο όσο και για άπειρο χρονικό ορίζοντα.Δεύτερον, γενίκευση της συνθήκης Sondik, που εξασφαλίζει ότι μια στάσιμη πολιτική επάγει Μαρκοβιανή διαμέριση στον χώρο των διανυσμάτων πληροφορίας. Έτσι αν μία πολιτική ικανοποιεί αυτή τη συνθήκη, τότε η συνάρτηση του αναμενόμενου ολικού εκπίπτοντος κόστους για άπειρο χρονικό ορίζοντα είναι κατά τμήματα γραμμική και ο υπολογισμός της ανάγεται στην επίλυση ενός γραμμικού συστήματος εξισώσεων. Τρίτον, εφαρμογή της POMDP σε προβλήματα συντήρησης/αντικατάστασης συστήματος όπου η κατάσταση (επίπεδο χειροτέρευσης) δεν είναι παρατηρήσιμη, αλλά λαμβάνονται μηνύματα που εξαρτώνται από την κατάσταση μέσω ενός μηχανισμού ελέγχου. Τέταρτον, εφαρμογή της POMDP σε προβλήματα επιλογής διδακτικών μεθόδων,όπου η μαθησιακή κατάσταση της τάξης (βαθμός αφομοίωσης της διδασκόμενης ύλης) δεν είναι παρατηρήσιμη, αλλά λαμβάνονται μηνύματα τύπου επιτυχία/αποτυχία σε test.el
dc.format.extent246el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleMερικά παρατηρήσιμεs Μαρκοβιανές διαδικασίες αποφάσεων και εφαρμογές σε προβλήματα αντικατάστασης συστημάτων και επιλογής διδακτικών μεθόδωνel
dc.typeDoctoral Thesisel
dc.contributor.departmentΣχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμηςel
dc.description.abstractENA Partially Observable Markov Decision Process (POMDP) is a natural extension of the Markov Decision processs (MDP).In POMDPs the state of the system is not observable and therefore unknown. Instead, the decision maker receives a random signal that depends on the state of the system at the beginning of each epoch and then he chooses an action from a finite set of actions. Starting with an initial prior information vector, belief state,(i.e a probability distribution on the state space), it is updated at beginning of each time epoch just after the arrival of a signal.The new information vector (or belief state) is the posterior distribution on the state space using Bayes’ rule that involves the transition and observation matrices assigned to the action selected at the previous time epoch. It is well known that information vector incoporates the information of the history of the system when choosing an action at a time epoch. The immediate costs (rewards) depend on the current state and action. The objective is the calculation of the optimal expected total discounted cost ( reward ) with respect to finite or infinite horizon and the determination of the optimal policy. Although POMDP may provide as suitable model for many applications they may be severely limited due to the computational complexity. Within this context the main goals of this thesis are as follows: Firstly,the development of flexible algorithms for the determination on optimal or near optimal policies, as well as approximations of the optimal reward or (cost) functions for finite or infinite horizon. Secondly, to find alternative conditions or generalize known conditions that ensure that a given stationary policy induces a Markovian partition of the belief state space. In this case the reward (or cost) function for infinite horizon is piecewise linear function and its evaluation is significantly simplified. Thirdly, application of the POMDP model in problems of repair /replacement of the system. It is assumed that the system is monitored incompletely by a certain mechanism which gives the decision maker some information about the exact state of the system. Fourthly, modeling a teaching methods selection problems as POMDP, where the state of the class (the degree of comprehension teaching material) is unknown to the teacher, and instead signals of success/failure type in tests are received.el
dc.subject.keywordΜαρκοβιανές διαδικασίεςel
dc.subject.keywordMarkov Decision Process (MDP)el


Αρχεία σε αυτό το τεκμήριο

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»