Policy-Based
๊ธฐ์กด์ Value Based ์ฆ Q-value๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ State์ action์ ์์กดํด ํญ์ trajectories(state-action-reward sequence)๋ฅผ ๊ตฌํด๋๊ฐ์ผํ๋ ์ ์ฝ์ด ์์๋ค. ํ์ง๋ง Policy-Based๋ Q-value๋ฟ ์๋๋ผ Policy์ ๋ํ ์ถ์ ๋ ๊ฐ์ดํ๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒ์ Agent๊ฐ ์ฌ๋ฐ๋ฅธ ๊ธธ๋ก ๊ฐ๋ ์ ๋ต์ ์ฐพ๋ ๊ฒ์ผ๋ก Policy-Based๊ฐ ์ด๋ฅผ ๋ ์ ๋ฐ์ํด์ฃผ์๋ค.
์ฅ์ ์ผ๋ก๋
- policy๋ฅผ ์ง์ ํ์ตํ๋ฏ๋ก ์์ ์ฑ์ด ๋๋ค.(ํ๊ฒฝ ๋ณํ, ๋ ธ์ด์ฆ์ ๋ ๋ฏผ๊ฐ)
- ํ๋ฅ ์ ์ธ ์ ์ฑ (Exploration, Exploitation) ์ฌ์ด์ ๊ท ํ์ ์กฐ์ ํ๋ฉด์ π*(Optimal Policy)๋ฅผ ํ์ต
- Continuous space์์๋ ์ ์๋
- ๋ค์ํ Optimizer ์ฌ์ฉ ๊ฐ๋ฅ
Advantage Value
A(s, a) = Q(s, a) - V(s)
• A(s, a) : ์ํ s์์ ํ๋ a๋ฅผ ์ทจํ์ ๋์ Advantage ๊ฐ
• Q(s, a) : ์ํ s์์ ํ๋ a๋ฅผ ์ทจํ์ ๋์ Q-value
• Q-value : ์ํ์ ํ๋ ์์ ๋ํ ๊ธฐ๋ ๋ณด์
• V(s) : ์ํ s์ Value function ๊ฐ (Value function์ ํ์ฌ ์ํ์ ๊ธฐ๋ ๋ณด์)
Advantage ์ฌ์ฉํ๋ ์ด์ ๋ Policy Gradient์์ ์ฌ์ฉ๋๋ ๋ณด์๊ฐ ๋์ Advantage๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ gradinet ์ถ์ ์น์ ๊ธฐ๋๊ฐ์ 0์ผ๋ก ๋ง๋ค์ด Variance๋ฅผ ์ค์ธ๋ค.
Actor-Critic
actor-critic์ actorํ๊ฒฝ์์ ๋ง๊ตฌ ๋ค์ํ ํ๊ฒฝ์ ์ ํ๊ฒํด ํด๋น ํ๊ฒฝ์์ policy๋ฅผ ํ์ตํ ๋ ์๊ธฐ๋ gradient๋ฅผ Global Network์ Updateํ๋ค. ์ด๋ ์ ์๋ฏธํ Gradient๋ฅผ ํ์ตํ๊ธฐ ์ํด Critic์ด ํ๊ฐ๋ฅผ ํ๋ค Update ํ๊ฒ ๋๋ค.
๊ทธ๋์ model ์์๋ ์ด ๋๊ฐ์ง์ gradient๊ฐ ์กด์ฌํ๋ค. Actor_network, Critic_network
'๐พ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[RL] Deep Deterministic Policy Gradient (A.K.A DDPG) (0) | 2023.04.04 |
---|---|
[RL] M1 Mac Mujoco_py ์ค์น (gcc@9 error) (0) | 2023.03.29 |
[RL] A3C (Asynchronous Advantage Actor-Critic) (0) | 2023.03.28 |
[Reinforce Learning] Deep Q-Network (0) | 2023.03.26 |
[Whisper] Robust Speech Recognition via Large-Scale Weak Supervision- (4) (0) | 2023.03.21 |