'A3C' 태그의 글 목록

[RL] A3C (비동기 Advantage Actor-Critic) 정리

2023.03.28·

👾 Deep Learning

Policy-Based 기존에 Value Based 즉 Q-value를 예측하는 방식은 State와 action에 의존해 항상 trajectories(state-action-reward sequence)를 구해나가야하는 제약이 있었다. 하지만 Policy-Based는 Q-value뿐 아니라 Policy에 대한 추정도 같이하는 것이다. 우리가 원하는 것은 Agent가 올바른 길로 가는 전략을 찾는 것으로 Policy-Based가 이를 더 잘 반영해주었다. 장점으로는 - policy를 직접 학습하므로 안정성이 높다.(환경 변화, 노이즈에 덜 민감) - 확률적인 정책(Exploration, Exploitation) 사이의 균형을 조절하면서 π*(Optimal Policy)를 학습 - Continuous spa..

[RL] A3C (Asynchronous Advantage Actor-Critic)

2023.03.28·

👾 Deep Learning

https://github.com/seohyunjun/RL_A3C GitHub - seohyunjun/RL_A3C: A3C (asynchronous advantage actor-critic) A3C (asynchronous advantage actor-critic). Contribute to seohyunjun/RL_A3C development by creating an account on GitHub. github.com

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

A3C

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

개인정보

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역