
[RL] A3C (๋น๋๊ธฐ Advantage Actor-Critic) ์ ๋ฆฌ
ยท
๐พ Deep Learning
Policy-Based ๊ธฐ์กด์ Value Based ์ฆ Q-value๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ State์ action์ ์์กดํด ํญ์ trajectories(state-action-reward sequence)๋ฅผ ๊ตฌํด๋๊ฐ์ผํ๋ ์ ์ฝ์ด ์์๋ค. ํ์ง๋ง Policy-Based๋ Q-value๋ฟ ์๋๋ผ Policy์ ๋ํ ์ถ์ ๋ ๊ฐ์ดํ๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒ์ Agent๊ฐ ์ฌ๋ฐ๋ฅธ ๊ธธ๋ก ๊ฐ๋ ์ ๋ต์ ์ฐพ๋ ๊ฒ์ผ๋ก Policy-Based๊ฐ ์ด๋ฅผ ๋ ์ ๋ฐ์ํด์ฃผ์๋ค. ์ฅ์ ์ผ๋ก๋ - policy๋ฅผ ์ง์ ํ์ตํ๋ฏ๋ก ์์ ์ฑ์ด ๋๋ค.(ํ๊ฒฝ ๋ณํ, ๋
ธ์ด์ฆ์ ๋ ๋ฏผ๊ฐ) - ํ๋ฅ ์ ์ธ ์ ์ฑ
(Exploration, Exploitation) ์ฌ์ด์ ๊ท ํ์ ์กฐ์ ํ๋ฉด์ ฯ*(Optimal Policy)๋ฅผ ํ์ต - Continuous spa..