[RL] A3C (비동기 Advantage Actor-Critic) 정리

728x90

Policy-Based

기존에 Value Based 즉 Q-value를 예측하는 방식은 State와 action에 의존해 항상 trajectories(state-action-reward sequence)를 구해나가야하는 제약이 있었다. 하지만 Policy-Based는 Q-value뿐 아니라 Policy에 대한 추정도 같이하는 것이다. 우리가 원하는 것은 Agent가 올바른 길로 가는 전략을 찾는 것으로 Policy-Based가 이를 더 잘 반영해주었다.

장점으로는

- policy를 직접 학습하므로 안정성이 높다.(환경 변화, 노이즈에 덜 민감)

- 확률적인 정책(Exploration, Exploitation) 사이의 균형을 조절하면서 π*(Optimal Policy)를 학습

- Continuous space에서도 잘 작동

- 다양한 Optimizer 사용 가능

Advantage Value

A(s, a) = Q(s, a) - V(s)

• A(s, a) : 상태 s에서 행동 a를 취했을 때의 Advantage 값

• Q(s, a) : 상태 s에서 행동 a를 취했을 때의 Q-value

• Q-value : 상태와 행동 쌍에 대한 기대 보상

• V(s) : 상태 s의 Value function 값 (Value function은 현재 상태의 기대 보상)

Advantage 사용하는 이유는 Policy Gradient에서 사용되는 보상값 대신 Advantage를 사용함으로써 gradinet 추정치의 기댓값을 0으로 만들어 Variance를 줄인다.

Actor-Critic

actor-critic은 actor환경에서 마구 다양한 환경을 접하게해 해당 환경에서 policy를 학습할때 생기는 gradient를 Global Network에 Update한다. 이때 유의미한 Gradient를 학습하기 위해 Critic이 평가를 한뒤 Update 하게 된다.

그래서 model 안에는 총 두가지의 gradient가 존재한다. Actor_network, Critic_network

저작자표시

'👾 Deep Learning' 카테고리의 다른 글

[RL] Deep Deterministic Policy Gradient (A.K.A DDPG) (0)	2023.04.04
[RL] M1 Mac Mujoco_py 설치 (gcc@9 error) (0)	2023.03.29
[RL] A3C (Asynchronous Advantage Actor-Critic) (0)	2023.03.28
[Reinforce Learning] Deep Q-Network (0)	2023.03.26
[Whisper] Robust Speech Recognition via Large-Scale Weak Supervision- (4) (0)	2023.03.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[RL] A3C (비동기 Advantage Actor-Critic) 정리

Policy-Based

Advantage Value

Actor-Critic

'👾 Deep Learning' 카테고리의 다른 글

Policy-Based

Advantage Value

Actor-Critic

'👾 Deep Learning' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

'👾 Deep Learning' 카테고리의 다른 글

'👾 Deep Learning' 카테고리의 다른 글

개인정보

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역