냥냥펀치데스
BAO_BAO
냥냥펀치데스
  • 분류 전체보기
    • AI 공부
      • AI 끄적
      • ML 끄적
      • DL 끄적
      • 데이터 끄적
      • RL 끄적
      • GAN 끄적
    • 끄적이기
      • etc
      • 독서
    • 컴퓨터 공부
      • 운영체제
      • ADsP 공부
      • 파이썬 공부
      • etc
    • 코딩공부
      • 문제 풀이
    • 금융공학
      • BackTrader 공부
      • etc
      • 논문구현
      • 퀀트 투자 공부
      • 전략 연습
    • 블록체인
      • ICO 분석
      • etc

인기 글

최근 글

전체 방문자
오늘
어제

티스토리

hELLO · Designed By 정상우.
냥냥펀치데스

BAO_BAO

강화학습 겉햙기(5)[Deep RL]
AI 공부/RL 끄적

강화학습 겉햙기(5)[Deep RL]

2021. 5. 25. 00:32
728x90

이번에는 강화학습에 머신러닝을 살짝 섞어보겠습니다.

저번까지 강화학습에 전반적인 시나리오는 테이블 안 이였습니다.

그런데 여기서 문제가 있습니다. 바로 테이블의 칸이 많아질때 입니다.

만약 테이블의 칸이 10170이라면 어떻게 해야할까요?

우리는 테이블의 칸을 모두 저장한 후에 그 상태를 방문해야지만 학습이 가능하기때문에

실질적으로 불가능합니다.

이때 나온게 바로 함수입니다

 이 함수를 도입하게되면 가지는 가장 큰 장점은 일반화입니다

우리가 상태별 가치를 학습하려면 모든 상태별 값들을 저장하여야 했지만, 여기서는 어림 짐작할수 있게 되었습니다.

 

뉴럴넷을 이용하여 vπ(s)를 학습하는 방법 : 상태 벨류의 값 Vtrue(s) 을 통한 구현

손실함수(L(θ)) = (Vtrue(s) - Vθ(s))2

정책함수 π 를 이용해 방문했던 상태 s 에 대해 계산

L(θ) = Eπ[(Vtrue(s) - Vθ(s))2]

이 계산을 하게되면 π가 자주 방문하는 상태의 가중치는 높아지고, π가 거의 방문하지 않는 상태의 가중치는 낮아진다.

 

L(θ)의 θ에 대한 그라디언트 계산 : Vtrue(s) 가 상수임을 이용한 체인룰 사용

∇θL(θ)  = -Eπ[(Vtrue(s) - Vθ(s))∇θVθ(s)

 

● MDP 를 모를때

몬테 카를로 컨트롤 리턴 :

밸류 업데이트 하는 방식 :

기존 테이블 방식 - V(st) <- V(st) + α(Gt - V(st))

뉴럴넷 방식 - L(θ) = Eπ[(Gt - Vθ(s))2] -> θ' = θ + α(Gt - Vθ(st))∇θVθ(st))

 

TD 컨트롤 리턴 : TD 로 V 학습

밸류 업데이트 하는 방식 :

기존 테이블 방식 - V(st) <- V(st) + α(R + γV(st) - V(st))

뉴럴넷 방식 - L(θ) = Eπ[(R + γV(st)  - Vθ(s))2] -> θ' = θ + α(R + γV(st)  - Vθ(st))∇θVθ(st))

저작자표시 (새창열림)

'AI 공부 > RL 끄적' 카테고리의 다른 글

강화학습 겉햙기(7)[알파고와 MCTS]  (0) 2021.05.30
강화학습 겉햙기(6)[에이전트]  (0) 2021.05.25
강화학습 겉햙기(4)[MDP 접근법]  (0) 2021.05.22
강화학습 겉햙기(3)[벨만 방정식]  (0) 2021.05.20
강화학습 겉햙기(2)[마르코프 결정 프로세스]  (0) 2021.05.19
    'AI 공부/RL 끄적' 카테고리의 다른 글
    • 강화학습 겉햙기(7)[알파고와 MCTS]
    • 강화학습 겉햙기(6)[에이전트]
    • 강화학습 겉햙기(4)[MDP 접근법]
    • 강화학습 겉햙기(3)[벨만 방정식]
    냥냥펀치데스
    냥냥펀치데스
    데이터 를 공부하는 무지몽매한 자입니다

    티스토리툴바