Markov decision networks

H.H.L.M. Donkers
In deze scriptie wordt het Markov beslisnetwerk als een nieuw instrument geontroduceerd voor het nemen van beslissingen in een onzekere wereld. Het Markov beslisnetwerk komt voort uit de welbekende beslisbomen. Het doel van een beslisboom (en van een Markov beslisnetwerk) is kort gezegd het bepalen van een strategie die de verwachte netto opbrengst maximaliseert.

Bij een Markov beslisnetwerk wordt ervan uitgegaan, dat de werkelijkheid op ieder moment door een toestand kan worden beschreven. De beslisser weet echter niet in welke toestand de wereld zich bevindt. De beslisser heeft een aantal testen ter beschikking om iets over de toestand van de wereld te weten te komen. De testen geven echter een onzekere uitspraak over de wereld. Op basis van hiervan kan de beslisser kiezen tussen een aantal acties die de toestand van de wereld veranderen. De effecten van de acties zijn echter ook onzeker. Al met al is er op ieder moment niet meer dan een kansverdeling over de toestanden bekend. Zoals het woord Markov al aangeeft, zijn de effecten die de acties en testen hebben alleen afhankelijk van de huidige toestand van de wereld.

De toestanden waarin de wereld zich kan bevinden, worden opgedeeld in chronologische fasen. Het uitvoeren van een actie verplaatst de wereld van de ene fase in een volgende fase. Acties en testen kunnen alleen in een bepaalde fase worden uitgevoerd. Een Markov beslisnetwerk bestaat nu uit iin knoop voor iedere fase en iin pijl tussen de knopen voor iedere actie. Testen worden als driehoeken aan de betreffende knopen gehangen.

In een Markov beslisnetwerk wordt de netto opbrengst uitgedrukt in kosten en opbrengst. De kosten zijn de kosten die handelingen met zich meebrengen. De opbrengst is en de opbrengst die wordt verwacht bij het bereiken van een eindtoestand.

In de scriptie wordt het concept van het Markov beslisnetwerk stap voor stap afgeleid uit het concept van de beslisboom. Vervolgens worden verschillende methoden besproken om in een Markov beslisnetwerk de (een) optimale strategie te vinden.

De tekst van deze scriptie is online beschikbaar.

05-04-2000

  Info: