Auto-Regressive Large Language Models (AR-LLMs)
- ํ๋์ ํ ์คํธ ํ ํฐ ๋ค์์ ๋ค๋ฅธ ํ ํฐ์ ์ถ๋ ฅ
- ํ ํฐ์ ๋จ์ด๋ ํ์๋จ์ด๋ฅผ ๋ํ๋
- ์ธ์ฝ๋/์์ธก๊ธฐ๋ ์์ญ์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ํธ๋์คํฌ๋จธ ์ํคํ
์ฒ
- ์ผ๋ฐ์ ์ผ๋ก 10์ต ~ 5,000์ต ๊ฐ์ ๋งค๊ฐ๋ณ์
- ํ๋ จ ๋ฐ์ดํฐ: 1์กฐ ~ 2์กฐ ๊ฐ์ ํ ํฐ ์ฌ์ฉ
- ๋ํ/ํ
์คํธ ์์ฑ LLM ์ข
๋ฅ
- Open Source : BlenderBot, Galactica, LlaMa, Llama-2, Code Llama (FAIR), Mistral-7B, Mixtral-4x7 B (Mistral), Falcon (UAE), Alpaca (Stanford), Yi (01.AI), OLMo (AI2), Gemma (Google)
- Proprietary : Meta AI (Meta), LaMDA/Bard, Gemini (Google), ChatGPT (OpenAI)
์ฑ๋ฅ ๋ฐ ํ๊ณ
- ์ฑ๋ฅ์ ๋๋ผ์ ํ์ง๋ง stupid mistakes (์ฌ์ค์ ์ค๋ฅ, ๋
ผ๋ฆฌ์ ์ค๋ฅ, ์ผ๊ด์ฑ ๋ถ์กฑ)
- LLM์ ์ ํ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ง ๋ํ ๊ธฐ๋ณธ ํ์ค์ ๋ํ ์ ํ๋ ์ง์, ๊ธฐ์ต๋ ฅ ๋ถ์กฑ, ๋ต๋ณ ๊ณํ ๋ฅ๋ ฅ ๋ถ์กฑ
Llama-2: https://ai.meta.com/llama/
(์งค๋งํ๊ฒ Meta LLAMA ์๊ฐ)
SeamlessM4T
(Meta์ ์๋ก์ด STT(Speech-to-text) ๋ชจ๋ธ, ๊ฐ๋ฅํ task(speech-to-speech translation, speech-to-text translation, text-to-text translation, speech recognition))
- 100๊ฐ์ง ์ธ์ด ์์ฑ, text ํ์ต
- 100๊ฐ์ง ์ธ์ด text output
- 35๊ฐ ๊ตญ์ด ์์ฑ output
- ์ค์๊ฐ ์์ฑ๊ณผ ํํ ๊ฐ๋ฅ
https://github.com/facebookresearch/seamless_communication
Auto-Regressive Generative Models Suck!.
(Auto-Regressive Generative ๋ชจ๋ธ์ ๊ตฌ๋ฆฌ๋ค!)
- Auto-Regressive Generative Model์ ๋งํ ์ด๋ช ์ด์๋ค. (๋ฆฌ์์ค ์ต์ )
- ํต์ ๊ฐ ๋ถ๊ฐ๋ฅํ๋ค. (non-toxic, factual etc)
- ์์ฑ๋ ํ ํฐ์ด ์ ๋ต ์งํฉ์ ๋ฒ์ด๋ ํ๋ฅ e(error)๊ฐ ์๋ค.
- ๊ธธ์ด๊ฐ n์ธ ๋ต๋ณ์ ์ ํํ ํ๋ฅ (P)์ผ ๋ P=(1-e)^n์ผ๋ก ๋ฐ์ฐ
- ๊ธธ์ด๊ฐ ๊ธด ๋ฌธ์ฅ์ผ์๋ก ๋ต๋ณ์ ํ๋ฆฌํฐ๊ฐ ๋จ์ด์ง (ArXiv:2305.18654)
Limitations of LLMs: no planning!
(LLM์ ๋ฌด๊ณํ์ด๋ค. ์ถ๋ก ๋ฅ๋ ฅ 0)
- ๋์ Wernike(๋ฒ ๋ฅด๋์ผ)์ Broca(๋ธ๋ก์นด) ์์ญ์ ๋ชจ๋ฐฉํ ๋ฟ (๋๋ ํผ์ง์ ๋ ๋ถ๋ถ ์ค ํ๋ ์ฃผ๋ก ์ธ์ด ์์ฑ์ ๊ด์ฌํ๋ ๋ธ๋ก์นด, ๋ฌธ์ ๋ฐ ์์ฑ ์ธ์ด ์ดํด๋ ๋ฒ ๋ฅด๋์ผ)
- ํ์ฌ์ LLM์ ๋ ๋ถ๋ถ์ ์์ญ์ ์ ๋๋ก ๋ชจ๋ธ๋งํ์ง ๋ชปํด planning์ด ๋ถ๊ฐ๋ฅ
๊ทธ๋ผ์๋ ์ข์ ์
- ์๋ฌธ ๋์ฐ๋ฏธ, ์ด์ ์์ฑ, ์คํ์ผ ๋ค๋ฌ๊ธฐ, ์ฝ๋ ์์ฑ
์ ์ข์ ์
- ์ฌ์ค์ ๊ดํ ์ผ๊ด๋ ๋ต๋ณ ์์ฑ (hallucinations!)
- ์ต์ ์ ๋ณด ๋ฐ์(๋ง์ง๋ง ํ์ต ์ดํ ์ ๋ณด ๋ต๋ณ ๋ถ๊ฐ)
- ์ ์ ํ ํ๋(ํ๋ จ ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ฐฉ)
- reasoning, planning, math
- ๊ฒ์ ์์ง, ๊ณ์ฐ๊ธฐ, ๋ฐ์ดํฐ ๋ฒ ์ด์ค ์ฟผ๋ฆฌ ๋ฑ์ ๋๊ตฌ๋ก ์ฌ์ฉ
์ฐ๋ฆฌ๋ LLM์ด ์ดํดํ๊ณ ์ฌ๋ฐ๋ฅธ ์ง์๋ฅผ ํด์ค ๊ฒ์ผ๋ก ์๊ฐํ๋ LLM์ ๋จํ๋๋ ์ธ์์ ์ดํดํ์ง ๋ชปํจ
์ ๋ฆฌํ์๋ฉด ์ง๊ธ์ LLM์ ์ ์ ์ด๋ค. ์๋ก์ด ์ง์์ ์ต๋์ด ๋ฐ๋ก๋ฐ๋ก ์ด๋ฃจ์ด์ง ์ ์๊ณ reasoning(์ดํด), planning(๊ณํ)์ด ๋ถ๊ฐ๋ฅํด ํญ์ ์ณ์ ๋ต๋ณ์ ํ์ง ๋ชปํ๋ค. ๋ฐ๋ผ์ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ์ด ์๋ฒฝํด์ง๋ ค๋ฉด (1)์์ ์ค๋ช ํ ์ธ์์ ๋ฐฐ์์ผ ํ๋ค. ๊ทธ๋ฌ๋ ค๋ฉด Auto-Regressive ๋ฐฉ์์์ ํํผํ๊ณ ์ฌ๋์ ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๊ด์ธ (์์ฑ, ํ ์คํธ) Broca, Wernicke์ ๊ตฌ์กฐ์ ๊ฐ์ด ๋ ๊ฐ์ง ๊ฐ๊ฐ ๊ธฐ๊ด์ ๋ชจ๋ ์์ฉํ ์ ์๋ ๋ชจ๋ธ์ด ํ์.
'๐ Routine' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Challenge] ์์ฑํ AI ๋ ๋ํ ์ฑ๋ฆฐ์ง (0) | 2024.04.13 |
---|---|
[CMSA] Yann Lecun | Objective-Driven AI (1) (0) | 2024.04.06 |
[Network] 304 Not Modified (0) | 2024.03.13 |
[Network] WSL ๋คํธ์ํฌ ์ดํด ๋๊ธฐ (0) | 2024.01.31 |
๋๋ผ๋ณ ๋ํต๋ น ์ ๋ ์ฌ (0) | 2024.01.01 |