Model: Mathematical models of dynamics and reward Policy: Function mapping agent’s states to actions Value function: future rewards from being in a state and/or action following a particular policy
Markov Processes
graph LR
World -->|State| Agent
World -->|Reward| Agent
Agent -->|Action| World
Markov Property
State is Markov if and only if:
is timestep is action is history recall, sequence of all previous action and rewards and states those we have seen up until current time point
อธิบาย Markov Property บอกเราว่า future state จะขึ้นอยู่กับ current state เท่านั้น และจะไม่ขึ้นกับ sequence of states/events ก่อนหน้า current state
เหมือนกับบอกว่า Process นี้ memoryless, states หรือ actions ก่อนหน้า current state จะไม่ส้งผลต่อ future state
Markov Process / Markov Chain
Markov Process is stochastic process that satisfy Markov property Random process where the future state depends only on the current state and not on the sequence of events that led to the current state
Markov Chain is Markov process that is discrete in time
Definition
- is a (finite) set of stats ()
- Transition/Dynamic model
มีเซ็ทของ states + มี dynamic model ที่ระบุ probability ที่จะไปที่ state ต่อไปเมื่อให้ค่าของ state ปัจจุบัน + ที Markov property = Markov Process
NOTE: no reward and action related at the moment
Notation
การที่เราเขียน มันคือ บอกว่า ถ้าเราให้ค่า b ไปจะมีโอกาส ที่จะได้ a หรือถ้าเป็น คือ ถ้าเรามี state จะมีโอกาส ที่จะไป state
Example and Transition Matrix
สมมติเรามีโมเดลอากาศที่มีสอง state ฝนตก หรือ แดดออก Markov Chain จะ model สภาพอากาศเป็น random process แบบนี้
- ถ้า แดดออก วันนี้ พรุ่งนี้มีโอกาส 70% แดดออก 30% ฝนตก
- ถ้า ฝนตก วันนี้ พรุ่งนี้มีโอกาส 40% แดดออก 60% ฝนตก
เราสามารถเขียน transition matrix ได้แบบนี้
Markov Reward Processes (MRPs)
Markov Reward Process is a Markov Chain + rewards
Definition
- is a (finite) set of stats ()
- Transition/Dynamic model
- is a reward function (Expected reward you get from being in the state)
- Discount factor (immediate reward | future reward)
NOTE: no action related at the moment
Expected Return
เป้าหมายของ MRP คือการคำนวณ expected return ของ state โดยสมการ
แต่จะเห็นว่ามันดูยุ่งยากเพราะฉะนั้นเราจะมาใช้อีกวิธีในการคำนวณ expected return ด้วยการ บวกค่าระหว่าง immediate reward + discounted future reward
Bellman Equation for MRP
เราสามารถคำนวณ expected return แบบ recursively ได้ด้วย Bellman Equation
- is the immediate reward obtained from state ,
- is the discount factor,
- is the probability of transitioning from state to state ,
- is the value function of the next state .
Markov Decision Processes (MDPs)
Markov Decision Process is Markov Reward Process + actions
Definition
- is a (finite) set of stats ()
- is a (finite) set of actions
- Transition/Dynamic model for each action,
- is a reward function (Expected reward you get from being in the state)
- Discount factor (immediate reward | future reward)
MDP is a tuple:
MDP Policy
Policy จะบอกเราว่าต้องทำ action อะไรในแต่ละ state --- Specify what action to take in each state
- Can be deterministic (ที่ state ไหนจะใช้ action ไหน) or stochastic (action จะถูกเลือกแบบสุ่ม (มี probability))
สามารถเขียนได้โดย
เราสามารถมองได้ว่า
MDP + = Markov Reward Process (ถ้าเรา fixed policy)