강화학습

    강화학습 겉햙기(4)[MDP 접근법]

    ● MDP 를 알때 첫번째로 우리가 MDP 를 알때를 가정해 봅시다. 우리는 미래가 어떤 과정을 거쳐 정해지는지 알고있으니 상상 속에서 시뮬레이션을 하여 좋은 계획을 세어야 합니다. 이때 우리는 테이블 기반 방법론 이라는것을 사용합니다. 테이블 기반 방법론 : 모든 상태 s 혹은 상태와 액션의 페어(s,a) 에 대한 테이블을 만들어서 값을 기록해 놓고, 그 값을 조금씩 업데이트 하는 방식을 의미합니다. 반복적 정책 평가 : 테이블의 값들을 초기화한후, 벨만 기대 방정식을 반복적으로 사용하여 테이블에 적어놓은 값을 조금씩 업데이트해 나가는 방법론 입니다. 이제 이 반복적 정책 평가를 값이 수렴할때 까지 계속 반복시킵니다. 그 결과는 바로 해당 상태의 실제 밸류가 됩니다. 최고의 정책찾기 방금전에 반복적 정..

    강화학습 겉햙기(2)[마르코프 결정 프로세스]

    이번에는 강화학습이 풀고자 하는 문제에 대해 다뤄보도록 하겠습니다. 전 포스트에 설명드린 순차적 의사결정은 조금 추상적입니다. 이를 MDP(Markov Decision Process)를 통해 다뤄보도록 하겠습니다. 그림 1에서 보이는 것은 예시로 든 저의 오늘 행동 프로세스 입니다. 여기서 제가 할수 있는 행동은 총 5가지로 웹서핑, 연구, 독서, 과외, 취침이 있습니다. 여기서 저는 해당상테에서 1분씩 머무르게 됩니다. 그 후에 다음 상태로 상태 전이를 합니다. 여기서 보이는 숫자들은 확률로써 예로 들자면 제가 웹서핑을 한후에 연구를 할 확률 50%, 독서를 할 확률 20%, 다시 웹서핑을 할 확률이 30% 입니다. 이러한 프로세스를 정의하기 위해서는 어떤 요소들이 필요할까요? ● 상태의 집합 S : ..

    강화학습 겉햙기(1)

    지도 학습에 경우 누군가가 옆에서 계속 정답을 알려주면서 학습을 시키게 해준다는 개념이라면, 강화 학습에 경우 옆에서 알려주는 사람 없이 시행착오를 통해 혼자 학습하는 개념입니다. 강화학습에 경우 누적보상을 최대로 하는 학습방법을 추구하는데 이때 보상을 3가지 특징으로 나누어 보자면 이렇습니다. 1. 어떻게(X), 얼마나(O) 2. 스칼라 3. 희소하고 지연된 보상 1. 어떻게(x), 얼마나(O) 보상의 첫번째 특징은 어떻게 학습해야하는지 가르쳐주지 않습니다. 다만 얼마나 잘하고 있는지 평가해 줍니다. 그럼으로 시행착오를 통해 보상이 낮았던 행동들은 덜하고, 보상이 높았던 행동들은 더 하여 보상을 최대화 하도록 조금씩 수정해 나갑니다 2. 스칼라 보상의 두번째 특징은 보상이 스칼라 라는 점입니다. 스칼라..