Markov decision networks
H.H.L.M. Donkers
In deze scriptie wordt het Markov beslisnetwerk als een nieuw
instrument geontroduceerd voor het nemen van beslissingen in een
onzekere wereld. Het Markov beslisnetwerk komt voort uit de welbekende
beslisbomen. Het doel van een beslisboom (en van een Markov
beslisnetwerk) is kort gezegd het bepalen van een strategie die de
verwachte netto opbrengst maximaliseert.
Bij een Markov beslisnetwerk wordt ervan uitgegaan, dat de
werkelijkheid op ieder moment door een toestand kan worden
beschreven. De beslisser weet echter niet in welke toestand de wereld
zich bevindt. De beslisser heeft een aantal testen ter beschikking om
iets over de toestand van de wereld te weten te komen. De testen
geven echter een onzekere uitspraak over de wereld. Op basis van
hiervan kan de beslisser kiezen tussen een aantal acties die de
toestand van de wereld veranderen. De effecten van de acties zijn
echter ook onzeker. Al met al is er op ieder moment niet meer dan een
kansverdeling over de toestanden bekend. Zoals het woord Markov al
aangeeft, zijn de effecten die de acties en testen hebben alleen
afhankelijk van de huidige toestand van de wereld.
De toestanden waarin de wereld zich kan bevinden, worden opgedeeld in
chronologische fasen. Het uitvoeren van een actie verplaatst de
wereld van de ene fase in een volgende fase. Acties en testen kunnen
alleen in een bepaalde fase worden uitgevoerd. Een Markov
beslisnetwerk bestaat nu uit iin knoop voor iedere fase en iin pijl
tussen de knopen voor iedere actie. Testen worden als driehoeken aan
de betreffende knopen gehangen.
In een Markov beslisnetwerk wordt de netto opbrengst uitgedrukt in
kosten en opbrengst. De kosten zijn de kosten die handelingen met
zich meebrengen. De opbrengst is en de opbrengst die wordt verwacht
bij het bereiken van een eindtoestand.
In de scriptie wordt het concept van het Markov beslisnetwerk stap
voor stap afgeleid uit het concept van de beslisboom. Vervolgens
worden verschillende methoden besproken om in een Markov
beslisnetwerk de (een) optimale strategie te vinden.
De tekst van deze scriptie is
online
beschikbaar.
|