Model: Mathematical models of dynamics and reward Policy: Function mapping agent’s states to actions Value function: future rewards from being in a state and/or action following a particular policy

Markov Processes

graph LR
    World -->|State| Agent
    World -->|Reward| Agent
    Agent -->|Action| World

Markov Property

State is Markov if and only if:

is timestep is action is history recall, sequence of all previous action and rewards and states those we have seen up until current time point

อธิบาย Markov Property บอกเราว่า future state จะขึ้นอยู่กับ current state เท่านั้น และจะไม่ขึ้นกับ sequence of states/events ก่อนหน้า current state

เหมือนกับบอกว่า Process นี้ memoryless, states หรือ actions ก่อนหน้า current state จะไม่ส้งผลต่อ future state

Markov Process / Markov Chain

Markov Process is stochastic process that satisfy Markov property Random process where the future state depends only on the current state and not on the sequence of events that led to the current state

Markov Chain is Markov process that is discrete in time


Definition

  • is a (finite) set of stats ()
  • Transition/Dynamic model

มีเซ็ทของ states + มี dynamic model ที่ระบุ probability ที่จะไปที่ state ต่อไปเมื่อให้ค่าของ state ปัจจุบัน + ที Markov property = Markov Process

NOTE: no reward and action related at the moment

Notation

การที่เราเขียน มันคือ บอกว่า ถ้าเราให้ค่า b ไปจะมีโอกาส ที่จะได้ a หรือถ้าเป็น คือ ถ้าเรามี state จะมีโอกาส ที่จะไป state

Example and Transition Matrix

สมมติเรามีโมเดลอากาศที่มีสอง state ฝนตก หรือ แดดออก Markov Chain จะ model สภาพอากาศเป็น random process แบบนี้

  • ถ้า แดดออก วันนี้ พรุ่งนี้มีโอกาส 70% แดดออก 30% ฝนตก
  • ถ้า ฝนตก วันนี้ พรุ่งนี้มีโอกาส 40% แดดออก 60% ฝนตก

เราสามารถเขียน transition matrix ได้แบบนี้

Markov Reward Processes (MRPs)

Markov Reward Process is a Markov Chain + rewards


Definition

  • is a (finite) set of stats ()
  • Transition/Dynamic model
  • is a reward function (Expected reward you get from being in the state)
  • Discount factor (immediate reward | future reward)

NOTE: no action related at the moment

Expected Return

เป้าหมายของ MRP คือการคำนวณ expected return ของ state โดยสมการ

แต่จะเห็นว่ามันดูยุ่งยากเพราะฉะนั้นเราจะมาใช้อีกวิธีในการคำนวณ expected return ด้วยการ บวกค่าระหว่าง immediate reward + discounted future reward

Bellman Equation for MRP

เราสามารถคำนวณ expected return แบบ recursively ได้ด้วย Bellman Equation

  • is the immediate reward obtained from state ,
  • is the discount factor,
  • is the probability of transitioning from state to state ,
  • is the value function of the next state .

Markov Decision Processes (MDPs)

Markov Decision Process is Markov Reward Process + actions


Definition

  • is a (finite) set of stats ()
  • is a (finite) set of actions
  • Transition/Dynamic model for each action,
  • is a reward function (Expected reward you get from being in the state)
  • Discount factor (immediate reward | future reward)

MDP is a tuple:


MDP Policy

Policy จะบอกเราว่าต้องทำ action อะไรในแต่ละ state --- Specify what action to take in each state

  • Can be deterministic (ที่ state ไหนจะใช้ action ไหน) or stochastic (action จะถูกเลือกแบบสุ่ม (มี probability))

สามารถเขียนได้โดย

เราสามารถมองได้ว่า

MDP + = Markov Reward Process (ถ้าเรา fixed policy)

MDP Policy Evaluation