[RL] Soft Actor-Critic (a.k.a SAC)

728x90

https://github.com/seohyunjun/RL_SAC/blob/main/README.md

GitHub - seohyunjun/RL_SAC: Soft Actor-Critic

Soft Actor-Critic. Contribute to seohyunjun/RL_SAC development by creating an account on GitHub.

github.com

* SAC (Soft Actor-Critic)

Continuous Action Space / Discrete Action Space 모든 공간에서 안정적인 Policy를 찾는 방법을 고안
기존의 DDPG / TD3에서 한번 더 나아가 다음 state의 action 또한 보고 다음 policy를 선택 (좋은 영양분만 주겠다)

* Policy Iteration - approximator

Policy evaluation
- 기존의 max reward Q-function

Policy improvement
- KL divergence (Kullback-Leibler) 두 확률 분포의 차이를 계산 if a=b, D_kl(a||b)=0
- 새로운 policy가 기존의 policy보다 나은 결과를 보여줌

continuous action space mujoco benchmark 결과 SAC는 다른 method와 다르게 explore를 안정적으로 하는 것을 볼 수 있다. 대표적으로 DDPG의 reward 음영은 상당히 두꺼운 것으로 reward가 들쑥날쑥 policy를 잘 찾지 못하고 있다.

** SAC는 더 좋은 policy를 보장하며 좋은 reward를 기준으로 update

저작자표시 (새창열림)

'👾 Deep Learning' 카테고리의 다른 글

[RL] Stable-baselines3 gym -> gymnasium (0)	2023.04.20
Choose Your Weapon:Survival Strategies for Depressed AI Academics (0)	2023.04.18
[M1] Whisper.cpp Deploy C++ (ALL OS-) (0)	2023.04.06
[RL] Deep Deterministic Policy Gradient (A.K.A DDPG) (0)	2023.04.04
[RL] M1 Mac Mujoco_py 설치 (gcc@9 error) (0)	2023.03.29

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`