지도 학습에 경우 누군가가 옆에서 계속 정답을 알려주면서 학습을 시키게 해준다는 개념이라면,
강화 학습에 경우 옆에서 알려주는 사람 없이 시행착오를 통해 혼자 학습하는 개념입니다.
강화학습에 경우 누적보상을 최대로 하는 학습방법을 추구하는데 이때 보상을 3가지 특징으로 나누어 보자면 이렇습니다.
1. 어떻게(X), 얼마나(O)
2. 스칼라
3. 희소하고 지연된 보상
1. 어떻게(x), 얼마나(O)
보상의 첫번째 특징은 어떻게 학습해야하는지 가르쳐주지 않습니다. 다만 얼마나 잘하고 있는지 평가해 줍니다.
그럼으로 시행착오를 통해 보상이 낮았던 행동들은 덜하고, 보상이 높았던 행동들은 더 하여 보상을 최대화 하도록 조금씩 수정해 나갑니다
2. 스칼라
보상의 두번째 특징은 보상이 스칼라 라는 점입니다.
스칼라는 크기만 있기 때문에 2개 이상의 목표를 설정할수 없습니다.
그럼으로 만일 어떤 문제는 도저히 하나의 목표만을 설정하기 어렵다면, 그 문제에 강화 학습을 적용하는 것은 적절하지 못할수 있습니다.
3. 희소하기 지연된 보상
보상의 세 번째 특징은 보상이 희소할수 있으며 또 지연될수 있다는 점입니다.
보상은 선택했던 행동의 빈도에 비해 훨씬 가끔 주어지거나, 행동이 발생한 후 한참 뒤에 나올수 있고, 이 때문에 행동과 보상의 연결이 어려워집니다. 이에 최근이 강화 학습 연구에서도 벨류 네트워크 등의 다양한 아이디어가 등장하고 있습니다.
그렇다면 강화학습이 어떤 시뮬레이션을 통해 학습되는지 알아봅시다.
여기에 Agent, Environment 가 나오는데 Agent 는 강화학습의 주인공이자 주체입니다.
학습하는 대상이며 동시에 환경 속에서 행동하는 개체를 가리키는 용어입니다.
Environment 는 에이전트를 제외한 모든 요소입니다.
여기서 그림을 설명하자면 Agent 가 어떤 특정 action 을 하고 이 환경속에서 Agent 는 상태가 바뀌였을겁니다. 이 현재 상태에 대한 모든 정보를 숫자로 기록해 놓으면 그것을 state 라고 합니다.
그리고 이 행동에 대해 에이전트에게 줄 reward 도 함께 계산되어 집니다.
이 패턴이 루프로써 돌아갈때 이 행동들을 단계별로 나누면 4단계로 나뉠수 있습니다.
1. 에이전트로부터 받은 액션 at 를 통해서 상태 변화를 일으킴
2. 그 결과 상태는 st -> st+1 로 바뀜
3. 에이전트에게 줄 보상rt+1도 함께 계산
4. st+1 과 rt+1을 에이전트에게 전달
이 루프를 통해 환경이st+1 로 바뀌면 한 틱(tick) 이 지났다고 표현합니다.
실제 세계는 시간의 흐름이 연속적 이겠지만 순차적 의사결정 문제에서는 이산적입니다.
그리고 그 시간의 단위를 틱 혹은 타임 스텝이라고 합니다.
강화학습의 위력
1. 병렬성의 힘 : 지금까지 이 모든 환경은 주인공이 한명일때 입니다.
이때 만약 주인공이 여러명이고 그 주인공들의 경험을 공유할수 있다면 어떠할까요?
OpenAI 에서는 Dota2 에 강화학습을 시뮬레이션 하기 위해 256개의 GPU 와 12만 8천 개의
CPU 코어를 사용하였다고 합니다.
2. 자가 학습의 매력 : 알파고 같은 경우 학습 초기에는 프로 바둑 기사들의 기보를 통해 지도 학습을 진행
하였지만, 그 후에 승리라는 목표만 알려주었을뿐, 그 과정을 알아서 찾도록 하였기
때문에 충분한 계산 능력과 어우러져 사람이 생각해낼 수 없는 수를 찾아냈습니다
reference :
http://www.yes24.com/Product/Goods/92337949
바닥부터 배우는 강화 학습
강화 학습 기초 이론부터 블레이드 & 소울 비무 AI 적용까지강화 학습을 모르는 초보자도 쉽게 이해할 수 있도록 도와주는 입문서다. 현업의 강화 학습 전문가가 직접 설명해 강화 학습에 가장
www.yes24.com
http://www.yes24.com/Product/Goods/89605439
단단한 강화학습
내용을 대폭 보강하여 20년 만에 개정된 강화학습 분야의 절대 바이블!인공지능 분야에서 가장 활발하게 연구되고 있는 분야 중 하나인 강화학습은 복잡하고 불확실한 환경과 상호작용하는 학
www.yes24.com
'AI 공부 > RL 끄적' 카테고리의 다른 글
강화학습 겉햙기(6)[에이전트] (0) | 2021.05.25 |
---|---|
강화학습 겉햙기(5)[Deep RL] (0) | 2021.05.25 |
강화학습 겉햙기(4)[MDP 접근법] (0) | 2021.05.22 |
강화학습 겉햙기(3)[벨만 방정식] (0) | 2021.05.20 |
강화학습 겉햙기(2)[마르코프 결정 프로세스] (0) | 2021.05.19 |