A3C

Policy-Based 기존에 Value Based 즉 Q-value를 예측하는 방식은 State와 action에 의존해 항상 trajectories(state-action-reward sequence)를 구해나가야하는 제약이 있었다. 하지만 Policy-Based는 Q-value뿐 아니라 Policy에 대한 추정도 같이하는 것이다. 우리가 원하는 것은 Agent가 올바른 길로 가는 전략을 찾는 것으로 Policy-Based가 이를 더 잘 반영해주었다. 장점으로는 - policy를 직접 학습하므로 안정성이 높다.(환경 변화, 노이즈에 덜 민감) - 확률적인 정책(Exploration, Exploitation) 사이의 균형을 조절하면서 π*(Optimal Policy)를 학습 - Continuous spa..
https://github.com/seohyunjun/RL_A3C GitHub - seohyunjun/RL_A3C: A3C (asynchronous advantage actor-critic) A3C (asynchronous advantage actor-critic). Contribute to seohyunjun/RL_A3C development by creating an account on GitHub. github.com
다했다
'A3C' 태그의 글 목록