728x90
https://github.com/seohyunjun/RL_SAC/blob/main/README.md
* SAC (Soft Actor-Critic)
- Continuous Action Space / Discrete Action Space ๋ชจ๋ ๊ณต๊ฐ์์ ์์ ์ ์ธ Policy๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ ๊ณ ์
- ๊ธฐ์กด์ DDPG / TD3์์ ํ๋ฒ ๋ ๋์๊ฐ ๋ค์ state์ action ๋ํ ๋ณด๊ณ ๋ค์ policy๋ฅผ ์ ํ (์ข์ ์์๋ถ๋ง ์ฃผ๊ฒ ๋ค)
* Policy Iteration - approximator
- Policy evaluation
- ๊ธฐ์กด์ max reward Q-function
- Policy improvement
- KL divergence (Kullback-Leibler) ๋ ํ๋ฅ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ๊ณ์ฐ if a=b, D_kl(a||b)=0
- ์๋ก์ด policy๊ฐ ๊ธฐ์กด์ policy๋ณด๋ค ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค
continuous action space mujoco benchmark ๊ฒฐ๊ณผ SAC๋ ๋ค๋ฅธ method์ ๋ค๋ฅด๊ฒ explore๋ฅผ ์์ ์ ์ผ๋ก ํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๋ํ์ ์ผ๋ก DDPG์ reward ์์์ ์๋นํ ๋๊บผ์ด ๊ฒ์ผ๋ก reward๊ฐ ๋ค์ฅ๋ ์ฅ policy๋ฅผ ์ ์ฐพ์ง ๋ชปํ๊ณ ์๋ค.
** SAC๋ ๋ ์ข์ policy๋ฅผ ๋ณด์ฅํ๋ฉฐ ์ข์ reward๋ฅผ ๊ธฐ์ค์ผ๋ก update
๋ฐ์ํ
'๐พ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[RL] Stable-baselines3 gym -> gymnasium (0) | 2023.04.20 |
---|---|
Choose Your Weapon:Survival Strategies for Depressed AI Academics (0) | 2023.04.18 |
[M1] Whisper.cpp Deploy C++ (ALL OS-) (0) | 2023.04.06 |
[RL] Deep Deterministic Policy Gradient (A.K.A DDPG) (0) | 2023.04.04 |
[RL] M1 Mac Mujoco_py ์ค์น (gcc@9 error) (0) | 2023.03.29 |