728x90

https://github.com/seohyunjun/RL_SAC/blob/main/README.md

 

GitHub - seohyunjun/RL_SAC: Soft Actor-Critic

Soft Actor-Critic. Contribute to seohyunjun/RL_SAC development by creating an account on GitHub.

github.com

 

* SAC (Soft Actor-Critic)

  • Continuous Action Space / Discrete Action Space 모든 공간에서 안정적인 Policy를 찾는 방법을 고안
  • 기존의 DDPG / TD3에서 한번 더 나아가 다음 state의 action 또한 보고 다음 policy를 선택 (좋은 영양분만 주겠다)

* Policy Iteration - approximator

  • Policy evaluation
    •  기존의 max reward Q-function

 

  • Policy improvement 
    • KL divergence (Kullback-Leibler) 두 확률 분포의 차이를 계산  if a=b, D_kl(a||b)=0 
    • 새로운 policy가 기존의 policy보다 나은 결과를 보여줌  

 

 

Policy 의사 결정
score 38796
continuous control benchmarks.

 continuous action space mujoco benchmark 결과 SAC는 다른 method와 다르게 explore를 안정적으로 하는 것을 볼 수 있다. 대표적으로 DDPG의 reward 음영은 상당히 두꺼운 것으로 reward가 들쑥날쑥 policy를 잘 찾지 못하고 있다.

 

 

** SAC는 더 좋은 policy를 보장하며 좋은 reward를 기준으로 update

반응형
다했다