728x90
반응형
https://github.com/seohyunjun/RL_SAC/blob/main/README.md
GitHub - seohyunjun/RL_SAC: Soft Actor-Critic
Soft Actor-Critic. Contribute to seohyunjun/RL_SAC development by creating an account on GitHub.
github.com
* SAC (Soft Actor-Critic)
- Continuous Action Space / Discrete Action Space 모든 공간에서 안정적인 Policy를 찾는 방법을 고안
- 기존의 DDPG / TD3에서 한번 더 나아가 다음 state의 action 또한 보고 다음 policy를 선택 (좋은 영양분만 주겠다)
* Policy Iteration - approximator
- Policy evaluation
- 기존의 max reward Q-function
- Policy improvement
- KL divergence (Kullback-Leibler) 두 확률 분포의 차이를 계산 if a=b, D_kl(a||b)=0
- 새로운 policy가 기존의 policy보다 나은 결과를 보여줌
continuous action space mujoco benchmark 결과 SAC는 다른 method와 다르게 explore를 안정적으로 하는 것을 볼 수 있다. 대표적으로 DDPG의 reward 음영은 상당히 두꺼운 것으로 reward가 들쑥날쑥 policy를 잘 찾지 못하고 있다.
** SAC는 더 좋은 policy를 보장하며 좋은 reward를 기준으로 update
반응형
'Deep Learning' 카테고리의 다른 글
[RL] Stable-baselines3 gym -> gymnasium (0) | 2023.04.20 |
---|---|
Choose Your Weapon:Survival Strategies for Depressed AI Academics (0) | 2023.04.18 |
[M1] Whisper.cpp Deploy C++ (ALL OS-) (0) | 2023.04.06 |
[RL] Deep Deterministic Policy Gradient (A.K.A DDPG) (0) | 2023.04.04 |
[RL] M1 Mac Mujoco_py 설치 (gcc@9 error) (0) | 2023.03.29 |