AI 공부/RL 끄적
강화학습 겉햙기(3)[벨만 방정식]
강화학습에서도 미래의 보상을 전부 경험하지 않더라도, 현재의 상태에서 예측을 통해 미래의 상태를 가늠해 볼 수 있다. 벨만 방정식은 이처럼 현재 상태와 미래의 성공확률에 대한 연결을 수식화 해준다. 이것을 공부하는 관점에서 바라보면, 시점 t에서의 밸류와 시점 t + 1 에서의 밸류 사이의 관계를 다루고 있으며 또 가치 함수와 정책 함수 사이의 관계도 다룬다. 벨만 기대 방정식을 3단계로 나누어서 생각해보자 ● 0 단계 : 위수식을 조금 풀어서 쓰면 다음과 같이 풀수 있습니다. 이것은 리턴이 먼저 한 스텝만큼 진행하여 보상을 받고, 그 다음 상태인 st+1부터 미래에 받을 보상을 더해줘도 똑같지 않겠느냐 하는것입니다. 윗 수식을 보자면 Rt+1은 현재 행동을 선택했을 때 즉각적으로 일어나는 결과, 즉 보..
강화학습 겉햙기(2)[마르코프 결정 프로세스]
이번에는 강화학습이 풀고자 하는 문제에 대해 다뤄보도록 하겠습니다. 전 포스트에 설명드린 순차적 의사결정은 조금 추상적입니다. 이를 MDP(Markov Decision Process)를 통해 다뤄보도록 하겠습니다. 그림 1에서 보이는 것은 예시로 든 저의 오늘 행동 프로세스 입니다. 여기서 제가 할수 있는 행동은 총 5가지로 웹서핑, 연구, 독서, 과외, 취침이 있습니다. 여기서 저는 해당상테에서 1분씩 머무르게 됩니다. 그 후에 다음 상태로 상태 전이를 합니다. 여기서 보이는 숫자들은 확률로써 예로 들자면 제가 웹서핑을 한후에 연구를 할 확률 50%, 독서를 할 확률 20%, 다시 웹서핑을 할 확률이 30% 입니다. 이러한 프로세스를 정의하기 위해서는 어떤 요소들이 필요할까요? ● 상태의 집합 S : ..
강화학습 겉햙기(1)
지도 학습에 경우 누군가가 옆에서 계속 정답을 알려주면서 학습을 시키게 해준다는 개념이라면, 강화 학습에 경우 옆에서 알려주는 사람 없이 시행착오를 통해 혼자 학습하는 개념입니다. 강화학습에 경우 누적보상을 최대로 하는 학습방법을 추구하는데 이때 보상을 3가지 특징으로 나누어 보자면 이렇습니다. 1. 어떻게(X), 얼마나(O) 2. 스칼라 3. 희소하고 지연된 보상 1. 어떻게(x), 얼마나(O) 보상의 첫번째 특징은 어떻게 학습해야하는지 가르쳐주지 않습니다. 다만 얼마나 잘하고 있는지 평가해 줍니다. 그럼으로 시행착오를 통해 보상이 낮았던 행동들은 덜하고, 보상이 높았던 행동들은 더 하여 보상을 최대화 하도록 조금씩 수정해 나갑니다 2. 스칼라 보상의 두번째 특징은 보상이 스칼라 라는 점입니다. 스칼라..