Home
Simple Record
Cancel

Dynamic Programming Example - Grid World

1. Introduction 본 포스팅에서는 Python 코드를 통해, Dynamic Programming (DP) 알고리즘을 구현하는 내용을 다룬다. 앞선 포스팅에서 다룬 Policy Iteration 알고리즘을 이용하여 4X 4 Grid World에 대한 Value Function과 Optimal Policy를 도출한다. 코드 구현을 위해 필요...

Dynamic Programming

1. Introduction Dynamic Programming (DP)은 MDP로 정의한 문제에서 Bellman Eq.를 푸는 방법이다. DP를 적용하기 위해서는 model의 dyamics를 정확히 알고 있어야 한다 (Model-based). 여기서 model의 dynamics를 알고 있다는 의미는 Agent가 MDP에서 state transiti...

Bellman Equation & Optimal Policy

1. Bellman Equation 특정 시점 $t$에서의 Value Function을 다음 시점 $t+1$에서의 Value Function과의 관계식으로 표현할 수 있는 수식을 Bellman Equation이라 한다. 앞선 MDP 포스트 에서 도출한 State-Value function과 Action-Value function (Q-function...

Markov Decison Process (MDP)

1. Markov Decision Process Markov Decision Process에서 상태의 전이가 일어날 경우, 미래의 상태 (State) 와 보상 (Reward) 는 오직 현재의 State 와 Reward 에 의해 결정됨 1-1. Agent-Environment Structure Agent: RL에서 환경을 학습 (l...