
RL ๊ณ๋ณด๋ก ๋ณด๋ฉด OpenAI์ Deepmind์ด ๋์ด ๊ฑฐ์ ๋คํ๋ค๊ณ ๋ณด๋ฉด ๋๋ค.. ์ฝ๋๋ฉฐ paper๋ฉฐ ํ์ง๋ง ์์ฆ RL ๋ณด๋ค NLP LLM ๋ชจ๋ธ์ ๊ด์ฌ์ด ์ ๋ฆฌ๋ฉด์ ๊ณผ๊ฑฐ OpenAI baseline git ์ด๋ Deepmind rl acme git์ด ์ ๋ฐ์ดํธ ๋์ง ์๊ณ ์๋ค. ๊ทธ ์ฌ์ด gym์ ํ์ ์ฌ๋จ์ด ๋ฐ๋๋ฉด์ gymnasium์ผ๋ก ๋ณํ๋๊ณ ์ผ๋ถ return ๋ฐฉ์์ด ๋ฐ๋์๋ค. ๊ทธ๋์ ๋๋ถ๋ถ์ 2~3๋ ์ด ์ง๋ ์ฝ๋๋ค์ ๊ณผ๊ฑฐ gym๋ฒ์ ์ ํจํค์ง๊ฐ ์๋๋ฉด ํธํ์ด ๋์ง ์๊ณ ์๋ค.
๊ทธ๋ฌ๋ ๋คํํ stable-baselines์์ ์ต๊ทผ gymnasium์ผ๋ก ์ฝ๋๋ฅผ ๋ณ๊ฒฝํด ์ฃผ์๋ค. ์ด ํจํค์ง๋ฅผ ์ฌ์ฉํ๋ฉด ๊ธฐ์กด ๋๋ถ๋ถ์ PPO, HER, DDPG ๋ฑ RL model์ ์ฌ์ฉ์ด ๊ฐ๋ฅํ๊ณ custom ํ๊ฒฝ๋ ๋ง๋ค ์ ์๊ฒ ๋ง๋ค์๋ค.
https://github.com/DLR-RM/stable-baselines3
GitHub - DLR-RM/stable-baselines3: PyTorch version of Stable Baselines, reliable implementations of reinforcement learning algor
PyTorch version of Stable Baselines, reliable implementations of reinforcement learning algorithms. - GitHub - DLR-RM/stable-baselines3: PyTorch version of Stable Baselines, reliable implementatio...
github.com
baseline2์์๋ Tensorflow๋ฅผ ์ง์.
ํ์ฌ Trend์ ๋ง์ถฐ PyTorch์ Test ํ๊ฒฝ ๊ตฌ์ถ
https://jmlr.org/papers/volume22/20-1364/20-1364.pdf

'๐พ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[CS324] Introduction (0) | 2023.07.03 |
---|---|
[Drag Your GAN] Interactive Point-based Manipulation on the Generative Image Manifold (0) | 2023.07.02 |
Choose Your Weapon:Survival Strategies for Depressed AI Academics (0) | 2023.04.18 |
[RL] Soft Actor-Critic (a.k.a SAC) (0) | 2023.04.12 |
[M1] Whisper.cpp Deploy C++ (ALL OS-) (0) | 2023.04.06 |

RL ๊ณ๋ณด๋ก ๋ณด๋ฉด OpenAI์ Deepmind์ด ๋์ด ๊ฑฐ์ ๋คํ๋ค๊ณ ๋ณด๋ฉด ๋๋ค.. ์ฝ๋๋ฉฐ paper๋ฉฐ ํ์ง๋ง ์์ฆ RL ๋ณด๋ค NLP LLM ๋ชจ๋ธ์ ๊ด์ฌ์ด ์ ๋ฆฌ๋ฉด์ ๊ณผ๊ฑฐ OpenAI baseline git ์ด๋ Deepmind rl acme git์ด ์ ๋ฐ์ดํธ ๋์ง ์๊ณ ์๋ค. ๊ทธ ์ฌ์ด gym์ ํ์ ์ฌ๋จ์ด ๋ฐ๋๋ฉด์ gymnasium์ผ๋ก ๋ณํ๋๊ณ ์ผ๋ถ return ๋ฐฉ์์ด ๋ฐ๋์๋ค. ๊ทธ๋์ ๋๋ถ๋ถ์ 2~3๋ ์ด ์ง๋ ์ฝ๋๋ค์ ๊ณผ๊ฑฐ gym๋ฒ์ ์ ํจํค์ง๊ฐ ์๋๋ฉด ํธํ์ด ๋์ง ์๊ณ ์๋ค.
๊ทธ๋ฌ๋ ๋คํํ stable-baselines์์ ์ต๊ทผ gymnasium์ผ๋ก ์ฝ๋๋ฅผ ๋ณ๊ฒฝํด ์ฃผ์๋ค. ์ด ํจํค์ง๋ฅผ ์ฌ์ฉํ๋ฉด ๊ธฐ์กด ๋๋ถ๋ถ์ PPO, HER, DDPG ๋ฑ RL model์ ์ฌ์ฉ์ด ๊ฐ๋ฅํ๊ณ custom ํ๊ฒฝ๋ ๋ง๋ค ์ ์๊ฒ ๋ง๋ค์๋ค.
https://github.com/DLR-RM/stable-baselines3
GitHub - DLR-RM/stable-baselines3: PyTorch version of Stable Baselines, reliable implementations of reinforcement learning algor
PyTorch version of Stable Baselines, reliable implementations of reinforcement learning algorithms. - GitHub - DLR-RM/stable-baselines3: PyTorch version of Stable Baselines, reliable implementatio...
github.com
baseline2์์๋ Tensorflow๋ฅผ ์ง์.
ํ์ฌ Trend์ ๋ง์ถฐ PyTorch์ Test ํ๊ฒฝ ๊ตฌ์ถ
https://jmlr.org/papers/volume22/20-1364/20-1364.pdf

'๐พ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[CS324] Introduction (0) | 2023.07.03 |
---|---|
[Drag Your GAN] Interactive Point-based Manipulation on the Generative Image Manifold (0) | 2023.07.02 |
Choose Your Weapon:Survival Strategies for Depressed AI Academics (0) | 2023.04.18 |
[RL] Soft Actor-Critic (a.k.a SAC) (0) | 2023.04.12 |
[M1] Whisper.cpp Deploy C++ (ALL OS-) (0) | 2023.04.06 |