기초
강화학습 겉햙기(1)
지도 학습에 경우 누군가가 옆에서 계속 정답을 알려주면서 학습을 시키게 해준다는 개념이라면, 강화 학습에 경우 옆에서 알려주는 사람 없이 시행착오를 통해 혼자 학습하는 개념입니다. 강화학습에 경우 누적보상을 최대로 하는 학습방법을 추구하는데 이때 보상을 3가지 특징으로 나누어 보자면 이렇습니다. 1. 어떻게(X), 얼마나(O) 2. 스칼라 3. 희소하고 지연된 보상 1. 어떻게(x), 얼마나(O) 보상의 첫번째 특징은 어떻게 학습해야하는지 가르쳐주지 않습니다. 다만 얼마나 잘하고 있는지 평가해 줍니다. 그럼으로 시행착오를 통해 보상이 낮았던 행동들은 덜하고, 보상이 높았던 행동들은 더 하여 보상을 최대화 하도록 조금씩 수정해 나갑니다 2. 스칼라 보상의 두번째 특징은 보상이 스칼라 라는 점입니다. 스칼라..