MDP
강화학습 겉햙기(4)[MDP 접근법]
● MDP 를 알때 첫번째로 우리가 MDP 를 알때를 가정해 봅시다. 우리는 미래가 어떤 과정을 거쳐 정해지는지 알고있으니 상상 속에서 시뮬레이션을 하여 좋은 계획을 세어야 합니다. 이때 우리는 테이블 기반 방법론 이라는것을 사용합니다. 테이블 기반 방법론 : 모든 상태 s 혹은 상태와 액션의 페어(s,a) 에 대한 테이블을 만들어서 값을 기록해 놓고, 그 값을 조금씩 업데이트 하는 방식을 의미합니다. 반복적 정책 평가 : 테이블의 값들을 초기화한후, 벨만 기대 방정식을 반복적으로 사용하여 테이블에 적어놓은 값을 조금씩 업데이트해 나가는 방법론 입니다. 이제 이 반복적 정책 평가를 값이 수렴할때 까지 계속 반복시킵니다. 그 결과는 바로 해당 상태의 실제 밸류가 됩니다. 최고의 정책찾기 방금전에 반복적 정..