https://kaiokendev.github.io/context
kaiokendev.github.io
ํ์ฅ ์ปจํ ์คํธ๋ ์ด๋ ต์ง๋ง ๋ถ๊ฐ๋ฅํ์ง๋ ์์ต๋๋ค†
ํ๋ฉด์ ์ผ๋ก๋ ์ฌ์ด ์์ ์ด์ด์ผ ํฉ๋๋ค.
์ ๋ ๊ธด ์ํ์ค ๊ธธ์ด์ ๋ํด ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํ๋ฉด์ ์ด ๊ธ์ ์์ฑํ๊ณ ์์์ต๋๋ค. ์ด ๊ฒฝ์ฐ, ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ LLaMa์ด๋ฉฐ, ์ฌ์ ํ๋ จ ์ํ์ค ๊ธธ์ด๋ 2048์ ๋๋ค. ๊ธด ์ํ์ค์์ ๋ชจ๋ธ์ ๋จ์ํ ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ฒ์ ํญ์ ์๋ํ์ง ์๋ ๊ฒ์ฒ๋ผ ๋ณด์์ง๋ง, ๊ฐ๋ฅํด์ผ ํ๋ค๊ณ ์๊ฐํ์ผ๋ฏ๋ก ์์ ํ ๋์ ํด ๋ณด์์ต๋๋ค. ์ด์ 1์ค์ ์ฝ๋๋ก ์ปจํ ์คํธ๋ฅผ ํ์ฅํ๋ ๋ฐฉ๋ฒ์ด ์์ผ๋ฉฐ, ์ด์ ๋ง์ ๊ด์ฌ์ด ์ง์ค๋๊ณ ์์ต๋๋ค. ๋ถํํ๊ฒ๋, ์ด์ ๋ํ ์คํด๋ ๋ง์ด ์์ผ๋ฉฐ, ์ ์๋ํ๋์ง์ ์ ๊ทธ๋ ๊ฒ ๊ฐ๋จํ์ง์ ๋ํด์๋ ์คํด๊ฐ ๋ง์ต๋๋ค. ์ฌ๋๋ค์ด ๊ทธ๊ฒ์ "ํดํน"์ด๋ "ํธ๋ฆญ"์ด๋ผ๊ณ ๋ถ๋ฅด๋ ์ด์ ๋ ๋จ์ํ 1์ค์ ์ฝ๋๋๋ฌธ์ ๋๋ค. ๊ทธ๋์ ๋ด๊ฐ ์๊ฐํ ๊ฒ๋ค์ ๋จธ๋ฆฟ์์์ ๋์ ธ์ฃผ๊ณ ๋ฌด์จ ์ผ์ด ์ผ์ด๋๋์ง ๋ช ํํํ๊ธฐ ์ํด ์ด ๊ธ์ ์ถํํ๊ธฐ๋ก ๊ฒฐ์ ํ์ต๋๋ค.
๋ค์ ๋งํด์, ์ค์๊ฐ ์์ ์ ์๋ค๋ ๊ฒ์ ๊ธฐ๋ํ์ธ์ lol
๋์ ์์
ํธ์ง: 2023๋
6์ 27์ผ
Meta ์์ฒด๊ฐ Chen et al. 2023์ ํตํด ๋์์ ๋์ผํ ๋ณด๊ฐ ์์ฑ์ ๋ฐ๊ฒฌํ๋ค๋ ์ฌ์ค์ ์๋ ค์คฌ์ต๋๋ค. ๊ทธ๋ค์ ๋
ผ๋ฌธ์ ์ฝ๋ ๊ฒ์ ๊ฐ๋ ฅํ ์ถ์ฒํฉ๋๋ค. ๊ทธ๋ค์ ๋ฐ๊ฒฌ ์ค ๋ง์ ๋ถ๋ถ์ด ๋ด ๊ฒ๊ณผ ์ ์ฌํ์ง๋ง, ๊ทธ๋ค์ ์ด ์๋ ๋ฐฉ์์ ๋ํ ๊ด๋ฒ์ํ ์คํ๊ณผ ์ถ๊ฐ์ ์ธ ์ด์ ๋ฅผ ์ ์ํฉ๋๋ค. ๊ทธ๋ ์ต๋๋ค, ๋์์ ๋ ๊ณณ์์ ๋ฐ๊ฒฌ๋ ๊ฒ์ ๋ํด ์ ๋ ๋๋์ต๋๋ค!
๋ ผ๋ฌธ: https://arxiv.org/pdf/2306.15595.pdf
The Problem
๊ทธ๋ ๋ค๋ฉด ๋ชจ๋ธ์ด ํ์ต ๋ด์ฉ์ ํ์ฅ๋ ์ํ์ค ๊ธธ์ด์ ๋ํด ์ผ๋ฐํํ๊ธฐ๊ฐ ์ ์ด๋ ค์ธ๊น์? ์ด์ ๊ด๋ จํ์ฌ ๋ค์ ๋ ผ๋ฌธ๋ค์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
Anil et al. 2022๋ "๋ฐฉํด ํ ํฐ"์ด ์ ๋ ฅ ์ค์ ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ๊ธธ์ด ์ถ์ ์ด ์คํจํ๋ ๊ฒ์ ํฐ ๋ถ๋ถ์ผ๋ก ๊ด์ฐฐํ์ต๋๋ค. ๊ทธ๋ค์ ๋ถ๋ก F์์ ์๋ ๋ด์ฉ์ ๊ฐ์กฐํ๊ณ ์ถ์ต๋๋ค.
4์ฅ์์์ ๋ถ์ ๊ฒฐ๊ณผ, ์ฐ๋ฆฌ๋ ํจ๋ฉ๋ ์คํฌ๋์นํจ๋ ์ ๋ต์ ์ฌ์ฉํด๋ "ํ์ต๋์ง ์์ ์์น ์ธ์ฝ๋ฉ"์ด๋ "EOS ํ ํฐ ์์ธก"์ด ์์ ์ธ๊ธํ ๊ฒฝ๋ก๋ณํ๋ฅผ ์ผ์ผํค๋ ๊ฒ์ด ์๋๋ผ๋ ์ฌ์ค์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ transformer๊ฐ ์ ๋ ฅ ๋ฐ ์คํฌ๋์นํจ๋์ "์ฌ๋ฐ๋ฅธ" ์น์ ์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๊ณ ๊ธด ๊ธธ์ด์ ๋ํด ์ผ๋ฐํ๋๋ ์์ฐจ ์ ๋ต์ ๊ตฌํํ๋ ์คํฌ๋์นํจ๋์ ๊ธฐ์ฌํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ์ง ๋ชปํ๋ค๋ ์ ์ ๋ํ๋ ๋๋ค. transformer ์ปจํ ์คํธ ์ฐฝ์ ์ด๋ ์น์ (์ ๋ ฅ ๋๋ ์คํฌ๋์นํจ๋)์์ ๋ฐฉํด ํ ํฐ์ด ์ฑ๋ฅ ๋ณํ์ ๋ ๋ง์ด ๊ธฐ์ฌํ๋๊ฐ? ๋ชจ๋ ๋ฐฉํด ํ ํฐ์ ์ ๊ฑฐํ๋ฉด ์๋ฒฝํ ๊ธธ์ด ์ถ์ ์ ํ ์ ์์๊น์? [...] ์ด ์คํ์์ ์ฐ๋ฆฌ๋ ๋ค์ ๊ฒฐ๋ก ์ ๋ด๋ฆฝ๋๋ค:
- ๋ชจ๋ ๋ฐฉํด ํ ํฐ์ ์ ๊ฑฐํ๋ฉด ์๋ฒฝํ ๊ธธ์ด ์ถ์ ์ด ๊ฐ๋ฅํฉ๋๋ค.
- ๋ฐฉํด ์ ๋ ฅ ํ ํฐ์ ๊ธธ์ด ์ถ์ ์ฑ๋ฅ์ ๋ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
Chi et al. 2022๋ ์์น ์ธ์ฝ๋ฉ์์ ํธํฅ ํญ(์: ALiBi์ ๊ฐ์)์ด ์ฅ๋ฒฝ๋ ์ฃผ๋ชฉ ์์ญ์ ํ ํฐ ์ํธ ์์กด์ฑ์ ๊ฐ์์ํค๋ ํจ๊ณผ๋ฅผ ์ฌํํ๋ค๊ณ ๊ด์ฐฐํ์ต๋๋ค. ์ด๋ฅผ ํ์ฉํ์ฌ Sandwich๋ฅผ ๋ง๋ค์ด ์ด ํจ๊ณผ๋ฅผ ์ํ์ํต๋๋ค.
Tao et al. 2023์ Anil et al.๊ณผ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ๋ฐ๋ฅด๋ฉด์๋ ๊ธด ์ํ์ค์์ ํ๋ฐฉ ์์น ์๋ฒ ๋ฉ์ด ์์ชฝ ์์น ์๋ฒ ๋ฉ๋ณด๋ค ํจ์ฌ ์ ๊ฒ ์ ๋ฐ์ดํธ๋๋ค๋ ๊ด์ฐฐ์ ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ๊ทธ๋ค์ ์ํ์ค์ ์์ชฝ ํจ์น์ ๋ฌด์์ ํจ๋ฉ์ ์ถ๊ฐํ๋ ๋ค๋ฅธ ๋ฐฉ์์ ์ทจํฉ๋๋ค. BERT ๋ณํ์ ๋ํด F1์ ๋ํ ์ฝ๊ฐ์ ~+0.2%์์ ~+0.8% ์ ํ๋ ํฅ์์ ๊ด์ฐฐํ์ต๋๋ค. Anil et al.์์๋ ์ด์ ๋ํด ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
LaMDA ๋ชจ๋ธ์ ์์น ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด T5 ์์น ํธํฅ์ ์ฌ์ฉํฉ๋๋ค. ๋คํธ์ํฌ๊ฐ ์งง์ ์ธ์คํด์ค๋ก๋ง ํ๋ จ๋ ๊ฒฝ์ฐ, ๊ธด ์์น ๊ฑฐ๋ฆฌ๋ฅผ ์ฒ๋ฆฌํ๋ ์์น ํธํฅ์ด ํ๋ จ๋์ง ์์ ์ ์์ด์ ๊ธธ์ด ์ผ๋ฐํ๊ฐ ๋์๊ฒ ๋์ค๋ ๊ฒ์ ์ค๋ช ํฉ๋๋ค.
[...] ์ด๋ฌํ ์ํฅ์ ์ค๋ช ํ ์ ์๋ ์ ๋๋ฅผ ํ ์คํธํ์ต๋๋ค.
์ด ๊ฐ์ ์ด ๋์์ด ๋์ง๋ง, ํ๋ จ๋ ๋ชจ๋ธ์ ์ฌ์ ํ ์ฌ๊ฐํ ๊ธธ์ด ์ผ๋ฐํ ๋ฌธ์ ๋ฅผ ๋ํ๋ ๋๋ค.
Liu et al. 2023์ Transformer์ ํ๋ฆฝํ๋กญ ์์ ์์ ๊ธด ์ํ์ค์์ ์ ํ์ฑ์ด ๋จ์ด์ง๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค. ํนํ, ๋ถ๋ก B.5์์ ๋ค์์ ์ธ๊ธํฉ๋๋ค.
์คํจ๋ ์ฌ๋ฌ ์์ธ์ ๊ธฐ์ธํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์๋ ์ ํ ์์น ์ธ์ฝ๋ฉ์ ์ฌ์ฉํ๋ 1์ธต 1ํค๋ Transformer๋ฅผ ์ฌ์ฉํ์ฌ ๊ธธ์ด 834์ ์ํ์ค์์ 2ํ ์ฐ๊ธฐ ์์ ์ ์ํํ๋ ๋์์ ์ดํ ์ ํจํด์ ๊ด๋ จ๋ ํ ๊ฐ์ง ์ธก๋ฉด์ ํ๊ตฌํฉ๋๋ค. ๊ทธ๋ฆผ 12์ ๋์ ์๋ฏ์ด, ์ํ์ค์ ์ด๊ธฐ ์์น์ ๋ํ ์ดํ ์ ์ด ๊ฐ์ฅ ์ต๊ทผ ์ฐ๊ธฐ ์์ ์ ์ฌ๋ฐ๋ฅด๊ฒ ์ฃผ๋ชฉํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋์ค ์์น๋ก ์ด๋ํ ์๋ก ์ดํ ์ ์ด "๋๋ฆฌํํธ"ํ๊ธฐ ์์ํ๊ณ , ์ํ์ค ๋์ ์์น๋ ์ต๊ทผ ์ฝ๊ธฐ ํ ํฐ์๋ง ์ฃผ๋ชฉํ๋ฉฐ ์ด ์์ ์ ํด๊ฒฐํ๋ ๋ฐ ํ์ํ ์ ๋ณด๊ฐ ์์ต๋๋ค. ์ด๋ ์์น ์ธ์ฝ๋ฉ์ ์ํด ์ดํ ์ ๊ฐ์ค์น๊ฐ ๋๋ฌด ๋ง์ด ์ํฅ์ ๋ฐ๊ธฐ ๋๋ฌธ์ผ ์ ์์ต๋๋ค.# ์น ํ์ด์ง: ์ ์ 4. ์ ํ ์์น ์ธ์ฝ๋ฉ์ ๊ณ ๋ คํ์ญ์์ค. ์ฆ, ์ผ๋ถ (ํฐ) ์์ C์ ๋ํด pi = i/C์ ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์์์ ๊ธธ์ด์ ๋ํ ์๋ฒฝํ ๊ธธ์ด ์ผ๋ฐํ๋ ๋ค์์ ํ์๋กํฉ๋๋ค:
W_Qp^T * W_Kp = 0.
Silver Linings
์ง๊ธ ์ฐ๋ฆฌ๋ ๋ฌธ์ ์ ๋ํด ๋ ๋์ ์ธ์์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ด ๋ฌธ์ ๋ ๊ธด ์ํ์ค์ ๊ฒฝ์ฐ ๊ด์ฐฐ๋ ํ ํฐ์ ๋ถ๊ท ํ (์์ผ๋ก ๋๋ ๋ค๋ก ์น์ฐ์นจ)์ผ๋ก ์ธํด ์ดํ ์ ๋ฉ์ปค๋์ฆ์ด ๋ถ์์ ํด์ง๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์ด์ ์ด๋ฌํ ์ํฅ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค.
Bueno et al. 2022๋ ๋ช ๊ฐ์ ์ท์ ์ฐ์ ์ฌ๊ณ ๊ณผ์ ๋ฐ ๋ง์ปค ํ ํฐ์ ์ฌ์ฉํ์ฌ ํ๋กฌํํธ๋ฅผ ์ ๊ณตํ ๋ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ด ์ ๊ธธ์ด๋ฅผ ์ถ์ ํ๋ค๋ ๊ฒ์ ์ ์ฆํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์์ ์ ์๋ฃํ๋ ๋ฐ ํ์ํ ๋จ๊ณ๋ฅผ ์์ฝํ๋ฉด์ ์๋ฃ๋ ์์ ์ ์์ฐจ์ ์ผ๋ก ํ์ํจ์ผ๋ก์จ ๋ชจ๋ธ์๊ฒ ๋ฌธ๋งฅ ์์์ ๊ธธ์ด๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ "๊ฐ๋ฅด์น๋" ๊ฒ์ ๋๋ค.
๋ํ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์ํ์ค์์ ํ ํฐ์ ์ ํํ๊ฒ ์๋ณํ๋ ๋ฐ ๋์์ด๋๋ ๋งํฌ์ ํ ํฐ๊ณผ ํจ๊ป ํ ํฐ ic์ oc๋ฅผ ๊ต๋๋ก ๋ฐฐ์นํฉ๋๋ค (์: Figure 1-(b) ์ฐธ์กฐ). ์ด๋ฌํ ํ ํฐ์ ์ธ ๊ฐ์ง ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ์ ์ง์ํฉ๋๋ค: 1) ์งํ ์ค์ธ ์์ ์ ๋ํ๋ด๋ ์์ ๋ฉ๋ชจ๋ฆฌ ์ญํ ์ ํฉ๋๋ค. 2) ์๋ ค์ง ํจํด์ ์์์ ์๋ฆฌ๋ ํ์ ํ๋กฌํํธ ์ต์ปค๋ก ์์ฉํฉ๋๋ค. 3) ํน์ ์งํ ์ํฉ์ ๋๋ฌํ์ ๋ ์ค์ง ์กฐ๊ฑด์ ์๋ฌต์ ์ผ๋ก ๋ชจ๋ธ๋งํฉ๋๋ค.
Anil et al. 2022๋ ๊ธธ์ด ์ผ๋ฐํ / ์ถ์ ์ด ๋ชจ๋ธ ์ํคํ ์ฒ์ ์์ ํ ์ข ์๋๋ ๊ฒ์ด ์๋๋ผ ํ์ต๋ ๋ฅ๋ ฅ์์ ๋ํ๋ ๋๋ค:
์ฐ๋ฆฌ๋ ์ธ๋ฌธํ์ ํ์ต ๋ฐฉ์์์ ์คํฌ๋์นํจ๋์ ์ฌ์ฉ์ด ์ผ๋ฐ์ ์ธ ๊ฐ์๋ฅผ ์ฌ๊ฐํ๊ฒ ์ํ์ํด์ ๋ณด์ฌ์ค๋๋ค. ์ด ๋ฅ๋ ฅ์ LLMs์ ๋ํด ๋งค์ฐ ์ค์ํ๋ฐ, ์ด๋ ๋ฌดํํ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ๋ ์ํฉ์์๋ ๊ธธ์ด ์ผ๋ฐํ์ ๊ฐ์ ํน์ ๊ธฐ์ ์ด ์ ํ ์กฐ๊ฑด๋ถ ํ์ต๋ณด๋ค๋ ์ธ๋ฌธํ์ ํ์ต์ ํตํด ํ์ต ๋ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด๋ ๊ธฐ๊ณ ํ์ต์ ํต์์ ์ธ ๊ท๋ฒ๊ณผ๋ ๋์กฐ์ ์ ๋๋ค (5์ ์ฐธ์กฐ).
๊ทธ๋ฌ๋ ๋ค์๊ณผ ๊ฐ์ ๋ด์ฉ์ผ๋ก ์ฃผ์ํด์ผํฉ๋๋ค (๋ถ๋ก E):
5.1์ ์์๋ ๋ช ๊ฐ์ง ์ท์ ์ ํ ์กฐ์ ์ด ๋์ผํ ์์ ์ ๋ํ ์ ํ ์กฐ์ ๋์ง ์์ ์ฑ๋ฅ์ด ์ด๋ฏธ ์ค์ํ ์์ค์ ๋๋ฌํ ๊ฒฝ์ฐ์๋ง ๊ธธ์ด ์ผ๋ฐํ ์ฑ๋ฅ์ ์ค์ํ ๊ฐ์ ์ ๊ฐ์ ธ์จ๋ค๊ณ ๊ฐ์ค์ ์ธ์ ์ต๋๋ค. ์ด๋ฅผ ์ํด ์ ํ ์กฐ์ ์ ์ฌ์ฉํ์ฌ ๋์ ๋์ง๊ธฐ ์์ ์ ๋ํด ์ ํ ์กฐ์ ๋์ง ์์ ์ฑ๋ฅ์ด ๋์ ๋์ฒด ํ๋กฌํํธ ์คํ์ผ์ ์ฌ์ฉํ์ฌ ๋ช ๊ฐ์ง ์ท์ ์ ํ ์กฐ์ ์ ์คํํ์ต๋๋ค. Figure 14์์ ํ์ธํ ์ ์๋ฏ์ด, ์ ํ ์กฐ์ ๋ ์ฑ๋ฅ์ ์ ์ํ ๊ธธ์ด ์ผ๋ฐํ ๋ณ๋ฆฌ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ค์ ๋งํด์, ์ฑ๋ฅ์ ํฅ์๋์ง๋ง, ํนํ ๋ฏธ์ธ ์กฐ์ ์์ด ์ด๋ฏธ ์ฑ๋ฅ์ด ์ข์ง ์์ ์์ ์ ๊ฒฝ์ฐ์๋ ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ง๋ฒ์ ํด๊ฒฐ์ฑ ์ ์๋๋๋ค. ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ํฅ์์ํค๋ ์ ์ผํ ๋ฐฉ๋ฒ์ ๋ฐฉํด๋๋ ํ ํฐ์ ์ ๊ฑฐํ๋ ๊ฒ์ ๋๋ค:
Mohtashami et al. 2023์ ๋๋๋งํฌ ํ ํฐ๊ณผ ์ฐฝ ๋จ์ ์ดํ ์ (๋ธ๋ก ๋ณ ๊ณ์ฐ ํํ)์ ๋์ ํ์ฌ LLaMa 7B๋ฅผ ์๋ฒฝํ ๊ฒ์์ ๋ฌ์ฑํ๊ธฐ ์ํด ์ธ๋ถ ์กฐ์ ํ ์ ์๋ค๊ณ ๋ณด์ฌ์ค๋๋ค. LLaMa๋ ๋กํฐ๋ฆฌ ์์น ์ธ์ฝ๋ฉ์ ์ฌ์ฉํ์ฌ ์ฌ์ ํ๋ จ๋ ์ปจํ ์คํธ ๊ธธ์ด 2048์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
์ดํ ์ ์ ์๋ฅผ ๊ณ์ฐํ ํ ์ํํธ๋งฅ์ค ํจ์๋ฅผ Grouped Softmax๋ก ๋์ฒดํฉ๋๋ค. ๊ฐ ๋ธ๋ก์ ๋ํด, ์ผ๋ฐ ํ ํฐ์ ๋ณ๋์ ๊ทธ๋ฃน์ ๋ฐฐ์น๋์ด ๋์ผํ ๋ธ๋ก ๋ด์ ๋ชจ๋ ์ผ๋ฐ ํ ํฐ์ด ๋์ผํ ๊ทธ๋ฃน์ ๊ณต์ ํ๋๋ก ๋ณด์ฅํ๊ณ , ๋ธ๋ก ์ธ๋ถ์ ํ ํฐ์ ๋ค๋ฅธ ๊ทธ๋ฃน์ ํ ๋น๋ฉ๋๋ค. i๋ฒ์งธ ํ ํฐ์ ์ดํ ์ ๊ฐ์ค์น๋ฅผ ๊ณ์ฐํ ๋, ๋ค๋ฅธ ๋ธ๋ก์ ๋๋๋งํฌ ํ ํฐ์ i๋ฒ์งธ ํ ํฐ๊ณผ ๋์ผํ ๊ทธ๋ฃน์ ๋ฐฐ์น๋ฉ๋๋ค. i๋ฒ์งธ ํ ํฐ์ ๋ํ ์ดํ ์ ๊ฐ์ค์น๋ฅผ ๊ณ์ฐํ ๋, i๋ฒ์งธ ํ ํฐ์ ๋ธ๋ก์ ๋ํ ๋๋๋งํฌ ํ ํฐ์ ๋ฌด์๋ฉ๋๋ค. ์ฆ, ๊ฐ ๋ธ๋ก์ ๋๋๋งํฌ ํ ํฐ์ ๋ค๋ฅธ ๋ธ๋ก์ ํ ํฐ์๋ง ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ๋๋๋งํฌ ํ ํฐ์ด ๋ค๋ฅธ ๋ธ๋ก์ ํ ํฐ์์ ์ ๋ณด๋ฅผ ๊ฒ์ํด์ผ ํ ๋์๋ง ์ก์ธ์ค๋์ด์ผ ํจ์ ์ง๊ด์ ์ผ๋ก ๋ํ๋ ๋๋ค.
์ค์ํ ์ ์ ์ด๋ค์ ์ฐฝ ๋ฐฐ์น ๋ฐฉ์์ด ํ์ค์ ์ธ ๋ธ๋ก ์ ํ ๋ฐฉ์๊ณผ ๋ค๋ฅด๋ค๋ ๊ฒ์ ๋๋ค. landmark gates์ ๋์ ์ผ๋ก ๊ฐ landmark๋ ๋ค๋ฅธ ๋ชจ๋ landmark์ ์ ๊ทผํ ์ ์์ผ๋ฉฐ, ์ด๋ค์ ๋ค์ ์์ ์ ๋ธ๋ก์ ๋ชจ๋ ํ ํฐ์ ์ ๊ทผํ ์ ์์ต๋๋ค. ์ด๋ ์ ์ญ + ๋ธ๋ก ๋๊ฐ์ ์ดํ ์ ์ ํผํฉ๊ณผ ๋น์ทํฉ๋๋ค. ๋ํ, ์ ์๋ค์ ์์น ์ธ์ฝ๋ฉ์ ์์ ์ ๋์ ํ์ฌ ๊ฐ ๋ธ๋ก์ ํ ํฐ๋ค์ ์์น์ ๋ํด ๋๋ค ์ ํ๋ฅผ ์ถ๊ฐํฉ๋๋ค.
๋ฐ์ดํฐ ์ฆ๊ฐ์ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ๋ฐ์ฌ์ ๊ฐ์ ์ถ๊ฐ์ ์ธ ์ค์ ์ ์ผ๋ฐํ๋ ์ ์๋๋ก ํ๋ ๋ฐ ์ฌ์ฉ๋์์ต๋๋ค [20]. ์ฐ๋ฆฌ๋ Transformer์ ์์น ์ ๋ณด์ ์ฆ๊ฐ์ ์ ์ฉํ์ฌ ๋ ๊ธด ๋ฌธ๋งฅ์ ๋ํด ์ธ์ฝํ ์ ์๋๋ก ์ ์ํฉ๋๋ค. ํ์ค์ ์ธ ์์น ์ธ์ฝ๋ฉ์์๋ ํ ํฐ๋ง๋ค ์์น๊ฐ 1์ฉ ์ฆ๊ฐํ์ฌ ์ ๋ ฅ์ ๊ธธ์ด์ธ T๋ฅผ ๊ธฐ์ค์ผ๋ก ํ ํฐ์ 1๋ถํฐ โseq๊น์ง์ ์์น๊ฐ ํ ๋น๋ฉ๋๋ค. ํนํ, ์ ๋ ฅ์ ๊ธธ์ด์ธ T๋ฅผ ๊ธฐ์ค์ผ๋ก 1๋ถํฐ T๊น์ง ์์น๋ฅผ ํ ๋นํ๋ ๋์ , ์ฐ๋ฆฌ๋ landmark ํ ํฐ๋ง๋ค 1๋ถํฐ pjump ์ฌ์ด์ ๋๋ค ์ ์๋ก ๋ชจ๋ ํ์ ํ ํฐ๋ค์ ์์น๋ฅผ ์ฆ๊ฐ์ํต๋๋ค. ์ด๋ฌํ ์ฆ๊ฐ๋ฅผ ์์น ์ ํ๋ผ๊ณ ํฉ๋๋ค. pjump = 1์ธ ๊ฒฝ์ฐ์๋ ์ฆ๊ฐ์ด ์ ์ฉ๋์ง ์๊ณ ํ์ค ์์น๊ฐ ๋ณต๊ตฌ๋ฉ๋๋ค.
์ฆ๊ฐ์ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ์ด ๋ ๊ธด ๋ฌธ๋งฅ์ ํ์ฉํ ์ ์๊ฒ ๋ฉ๋๋ค. ์ด๋ ๋ฌธ๋งฅ์ ๊ธธ์ด๋ฅผ ์ฆ๊ฐ์ํค๋ฉด perplexity๊ฐ ๊ฐ์ํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ ์ธ์ฝ ๋ฅ๋ ฅ์ ์ด๋ก ์ ์ถ์ ์น์ ๊ฐ๊น์ด 1400๊ฐ์ ํ ํฐ์ ๋๋ฌํ๊ธฐ ์ ๊น์ง ๊ฐ์ํ๋ ๊ฒฝํฅ์ ๋ณด์ ๋๋ค. ๋ฐ๋ฉด์ ํ์ค ๋ชจ๋ธ์ 1024๊ฐ์ ํ ํฐ์ ๋๋ฌํ๊ธฐ ์ ์ ๊ฐ์ํ๋ ๊ฒฝํฅ์ ๋ณด์ ๋๋ค.
์ด๋ค ๋ฉด์์๋ ์ด๋ Tao et al.์ ๋ฌด์์ ํจ๋ฉ๊ณผ ๋ค์ ์ ์ฌํฉ๋๋ค.
Intermission
๊ณ์ํ๊ธฐ ์ ์, ์ฐ๋ฆฌ๋ ๋์ ๋๋ ์ง๋ฌธ์ ๋ํด ๋ค๋ฃจ์ด์ผ ํฉ๋๋ค. ์ ์ฐ๋ฆฌ๋ fine-tuning ๋์ ๋ฌธ๋งฅ ๊ธธ์ด๋ฅผ ํ์ฅํ๋ ๋ฌธ๋งฅ์์ ๊ธธ์ด ์ถ์ ์ ๋ํด ์ด์ผ๊ธฐํ๊ณ ์๋ ๊ฑธ๊น์? ์ด ์ง๋ฌธ์ ๋ตํ๊ธฐ ์ํด์๋ ๋จผ์ ๋ค์ ์ง๋ฌธ์ ๋๋ตํด์ผ ํฉ๋๋ค. ์ ์ํ์ค ๊ธธ์ด L๋ก ์ฌ์ ํ๋ จํ๋ ๊ฒ์ ์ฝ์ง๋ง, ์ํ์ค ๊ธธ์ด 2L๋ก ์์งํ๊ฒ fine-tuningํ๋ ๊ฒ์ ์ด๋ ค์ธ๊น์? ์ฌ์ค, fine-tuning์์ ํ์ฅ๋ ๋ฌธ๋งฅ ๊ธธ์ด์ ๋ํ ๊ธธ์ด ์ถ์ ๋ฌธ์ ๋ก ๋ณผ ์ ์์ต๋๋ค.
Anil et al.์ EOS ํ ํฐ์ ํธํฅ๋ ์ดํ ์ ๋ถํฌ์ ๋ํ ํจ๊ณผ๋ฅผ ์ ์ดํ๊ธฐ ์ํด fine-tuned LaMDA ๋ชจ๋ธ์ ์์กดํ์ต๋๋ค.
์ ๋ ฅ ๋นํธ ๋ฌธ์์ด๊ณผ ์คํฌ๋์นํจ๋ ๋ด์ฉ์ ๋๋ฏธ ํจ๋ฉ ํ ํฐ์ผ๋ก ์ฑ์์ ํ ํฐ ์๋ฅผ ๋์ผํ๊ฒ ๋ง๋ค์์ต๋๋ค. ๋ํ, ์ ๋ ฅ๊ณผ ์คํฌ๋์นํจ๋ ํ๊ฒ์ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ์ ๋์ผํ ์์ ํจ๋ฉ ํ ํฐ์ผ๋ก ๋ณด๊ฐํ์ฌ ์์ฐจ์ ์ธ ์คํฌ๋์นํจ๋ ์ ๋ต์ ์คํํ ๋ ๊ด๋ จ ๋นํธ๊ฐ ๋์ผํ T5 ์์น ํธํฅ bin์ ๋์ํ๋๋ก ํ์ต๋๋ค.
์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์์ EOS ํ ํฐ์ ํจ๊ณผ๋ฅผ ์ ์ดํ๋ ๋ฐ ์ด๊ฒ์ด ์ถฉ๋ถํ ๊ฒ์ธ์ง ์ ๋ง ๊ทธ๋ฐ์ง์?
Potential Solutions
์ดํ ์ ๊ณ์ฐ ๋ณ๊ฒฝํ๊ธฐ
Chiang & Cholak 2022์ ๊ฐ์ ๋ ๊ธธ์ด ์ผ๋ฐํ๋ฅผ ์ํ ๊ฐ๋จํ ๊ธฐ์ฌ๋ฅผ ์ ์ํฉ๋๋ค - ์ ๋ ฅ ์ํ์ค์ ๊ธธ์ด์ธ n์ ๋ํด ์ดํ ์ ์ log(n)์ผ๋ก ์ค์ผ์ผ๋งํฉ๋๋ค. (์ฌ์ ํ๋ จ ๊ธธ์ด๊ฐ ๊ธฐ์ค์ด ๋์ด์ผ ํ๋ค๊ณ ๋ฏฟ์ต๋๋ค?)
Hahn์ ๋ณด์กฐ์ ๋ฆฌ์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๊ฐ ๊ตฌ์ฑํ transformer๋ ์ ๋ ฅ ๊ธธ์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ต์ฐจ ์ํธ๋กํผ๊ฐ 1๋นํธ(์ฆ, ๋ฌด์์ ์ถ์ธก๋ณด๋ค ์กฐ๊ธ ๋ ๋์)์ ๊ทผ์ ํ๋๋ก ํฉ๋๋ค. ํ์ง๋ง ์ฐ๋ฆฌ๋ ๋ ์ด์ด ์ ๊ทํ๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ, ๊ต์ฐจ ์ํธ๋กํผ๋ฅผ ๋ฌธ์์ด ๊ธธ์ด์ ๋ ๋ฆฝ์ ์ผ๋ก 0์ ์์ฃผ ๊ฐ๊น๊ฒ ๋ง๋ค ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค (§4). ์ค์ ๋ก, Bhattamishra et al. (2020a)์ ๋ง์ฐฌ๊ฐ์ง๋ก transformers๋ PARITY๋ฅผ ํ์ตํ ์ ์์ต๋๋ค. ๋ ๋๋๊ฒ๋, FIRST๋ฅผ ํ์ตํ ๋, transformers๋ ๋ ์งง์ ๋ฌธ์์ด์์ ๋ ๊ธด ๋ฌธ์์ด๋ก ์ผ๋ฐํํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ ์ ์์ต๋๋ค. ์ด๊ฒ์ Hahn์ ๋ณด์กฐ์ ๋ฆฌ์ ๋ ผ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ์๋์ง๋ง, Hahn์ ๋ณด์กฐ์ ๋ฆฌ๊ฐ ์์ธกํ๋ ํ๋์ ๊ฒฐ๊ณผ์ ๋๋ค. ๋คํํ๋, ์ด ๋ฌธ์ ๋ ์ดํ ์ ๋ก์ง์ log ๐์ผ๋ก ๊ณฑํ๋ ๊ฐ๋จํ ์์ ์ ํตํด ํด๊ฒฐ๋ ์ ์์ต๋๋ค. ์ด ์์ ์ ๊ธฐ๊ณ ๋ฒ์ญ์์๋ ๊ธธ์ด ์ผ๋ฐํ๋ฅผ ๊ฐ์ ์ํต๋๋ค (§5).
Shen et al. 2023์ ์ดํ ์ ๋ฐฉ์ ์์์ ํ์ค softmax๋ฅผ ReLU๋ก ๋์ฒดํ๋ ๊ฒ์ ์ ์ํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๊ธด ์ํ์ค ๊ธธ์ด์ ๋ํ ์ถ๋ ฅ ์์ ํ๊ฐ ๊ฐ์ ๋ ๊ฒ์ ๋๋ค.
๊ทธ๋ค์ softmax๊ฐ ์ถฉ๋ถํ ํฐ ํ๋ ฌ์์ ๋ฐ์ํ๋ ์ ์์ ๋ถ์์ ํ๋ก ์ธํด ReLU๋ณด๋ค ๊ธด ์ํ์ค์์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
์ถฉ๋ถํ ํฐ ํ๋ ฌ์์ ๋ฐ์ํ๋ ์ ์์ ๋ถ์์ ํ๋ก ์ธํด, softmax๋ ๊ธด ์ํ์ค์์ ReLU๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ง์ ๋ฐ๊ฒฌํ์ต๋๋ค.
ํค-๊ฐ ์ฌ๋กฏ์ ์ด ์๋ฅผ ๋ณ๊ฒฝํจ์ผ๋ก์จ, ์ฌ๋กฏ์ ์๊ฐ ๋ ๋ง์ ๋ ReLU๊ฐ Softmax๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํจ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ฐ๋ฆฌ๋ ๋ชจ๋ ํ์ฑํ ์ค ์์ ์ ์์ ๋น์จ์ ๊ณ์ฐํ์ฌ ์ด์ ๋ฅผ ํ๊ตฌํ๊ณ , ํ์ฑํ ๊ฐ์ค์น๊ฐ ์์์ ์ฌ๋กฏ์ ๊ณ ๋๋ก ์ง์ค๋์ด ๋ค๋ฅธ ์ฌ๋กฏ์ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํ์ฉํ๊ธฐ์ ๋ถ์กฑํ๋ค๋ ์ฌ์ค์ ๋ฐ๊ฒฌํ์ต๋๋ค. ๋ฐ๋ฉด ReLU๋ ์ด ๋ฌธ์ ๋ฅผ ์ํํ ์ ์์ต๋๋ค. ๊ฐ ์ฌ๋กฏ์ ์๊ฐ ๋ง์ ๊ฒฝ์ฐ ReLU์ ์ฐ์ํ ์ฑ๋ฅ์ ๊ณ ๋ คํ์ฌ Softmax๊ฐ ๊ธด ์ํ์ค๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ ์ ์๋ SAN์์ ReLU์ ์ฑ๋ฅ์ ํ์ํฉ๋๋ค (Sun et al., 2022). ๋ถํํ๋, Softmax๋ฅผ ์ง์ ReLU๋ก ๊ต์ฒดํ๋ฉด ์๋ ดํ์ง ์์ต๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ด๋ก ์ ๋ฐ ์คํ์ ๋ถ์์ ํตํด ์ ๋ ฅ ์ํ์ค์ ๊ธธ์ด์ ๋ฐ๋ผ ReLU ํ์ฑํ์ ๋ถ์ฐ์ด ์ฆ๊ฐํ๊ณ , ๋์ ๋ถ์ฐ์ด ๋ถ์์ ํ ํ์ต ๊ณผ์ ์ ์ผ๊ธฐํ๋ค๋ ์ฌ์ค์ ๋ฐ๊ฒฌํ์ต๋๋ค. ๋ฐ๋ผ์ ๋ถ์ฐ ๊ฐ์ ์์์ ์ ๊ทํ ์์ค ํจ์๋ฅผ ๋์ ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๊ธด ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ Softmax๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ self-attention์์ ReLU๋ฅผ ํ์ฉํ ์ ์๊ฒ ๋์์ต๋๋ค.
์์ ์์น ์ธ์ฝ๋ฉ
๋๋ Ruoss et al. 2023์ ์ด ๋ ผ๋ฌธ์ ์ฐ์ฐํ ๋ฐ๊ฒฌํ๋๋ฐ, ์ด๋ค์ ์๋ก์ด ์ธ์ฝ๋ฉ ์ฒด๊ณ๋ฅผ ์ฌ์ฉํ์ฌ, ์ธ์ฝ ๋ฅ๋ ฅ์ +10%์์ +50%๊น์ง ํฅ์์ํฌ ์ ์๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ์ฌ๋ฏธ์๊ฒ๋, ๋๋ ์ด ๋ ผ๋ฌธ์ ์ด์ ์ ๋ณธ ์ ์ด ์์๋๋ฐ, ์ ์ด๋ ์ต๋ช ํ๋ ๋ฒ์ ์ ๋ดค๊ณ , "์์ ์์น ์ธ์ฝ๋ฉ ์ฒด๊ณ"๋ผ๋ ๋จ์ด๋ฅผ ๋ณด๊ณ "RoPE์ ํธํ๋๋ ๊ฒ์ด ํ์ํ๋ค!"๊ณ ์๊ฐํ๋ฉฐ ๋ฌด์ํ๋ ๊ฒ ๊ฐ์ต๋๋ค.
ํธ๋์คํฌ๋จธ๋ ๊ณ ์ ๋ ๋ฌธ๋งฅ ๊ธธ์ด์ ์์ ์์ ์ธ์์ ์ธ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ฌธ์์ด ๋ณต์ ์ ๊ฐ์ ๋ณด๋ค ๊ฐ๋จํ ์์ ์์๋ ์์ ๊ธธ์ด์ ์ํ์ค์ ๋ํด ์ผ๋ฐํํ ์ ์์ต๋๋ค. ๋ํ, ๋ ๊ธด ์ํ์ค์์ ์ ์ญ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ด์ฐจ ๊ณ์ฐ ๋ณต์ก์ฑ์ผ๋ก ์ธํด ๋จ์ํ ๋ ๊ธด ์ํ์ค์์ ํ๋ จํ๋ ๊ฒ์ ๋นํจ์จ์ ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด ์คํจ ๋ชจ๋๊ฐ ๊ธด ์ํ์ค์ ๋ํด ์์น ์ธ์ฝ๋ฉ์ด ๋ถํฌ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ธฐ ๋๋ฌธ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ ์ ์๋ ์๋ก์ด ์ข ๋ฅ์ ์์น ์ธ์ฝ๋ฉ์ ์๊ฐํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ๋ฆฌ์ ์์ ์์น ์ธ์ฝ๋ฉ ์ฒด๊ณ๋ ๋ ๊ธด ์ํ์ค์ ์์น๋ฅผ ๋ชจ์ฌํ๊ณ , ์์๋๋ก ์ ํ๋ ๋ถ๋ถ ์งํฉ์ ์ํ์ค์ ๊ธธ์ด์ ๋ง์ถ๊ธฐ ์ํด ์์๋ก ์ ํํฉ๋๋ค. 15๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ์ถ๋ก ์์ ์ ํตํ ๋๊ท๋ชจ ๊ฒฝํ์ ํ๊ฐ ๊ฒฐ๊ณผ, ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ํธ๋์คํฌ๋จธ๊ฐ ๋ณด์ง ๋ชปํ ๊ธธ์ด์ ์ํ์ค์ ์ผ๋ฐํํ ์ ์๊ฒ ๋๋ฉฐ (ํ๊ท ํ ์คํธ ์ ํ๋๊ฐ 12.0% ์ฆ๊ฐํจ), ์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์์ฑ ์์ ์๋ ๋ ผ๋ฌธ์์ ์ธ๊ธํ ์ฝ๋๊ฐ ์ ๊ณต๋ ๋งํฌ์ธ https://github.com/deepmind/randomized_positional_encodings ์์ ์ฌ์ฉํ ์ ์์ต๋๋ค. (2023๋ 6์ 23์ผ ํ์ฌ ์ฝ๋๊ฐ ์์ต๋๋ค.) ์ด๋ ์์ ํ ์๋ก์ด ์ฒด๊ณ์ธ ๊ฒ ๊ฐ์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ ์์ธํ ์ดํด๋ณด๋ฉด, ์ด ๊ธฐ์ ์ ์ฌ์ํ๋ฏ๋ก ๋ช ์ค์ ์ฝ๋๋ก ๊ตฌํํ ์ ์์ต๋๋ค:
[...]
์ฐ๋ฆฌ์ ์์ ์์น ์ธ์ฝ๋ฉ ์ฒด๊ณ๋ฅผ ์ ์ฉํ ๋, ์ฐ๋ฆฌ๋ ๊ฐ ์ํ์ค๋ง๋ค ๊ฐ๋ณ์ ์ผ๋ก๊ฐ ์๋ ์ผ๊ด ์ฒ๋ฆฌ๋น ํ์ฅ๋ ์์น๋ง ์ผ๊ด์ ์ผ๋ก ์๋ธ์ํ๋งํฉ๋๋ค. sin/cos(Vaswani et al., 2017), ํ์ต๋(Gehring et al., 2017) ๋ฐ RoPE ์ธ์ฝ๋ฉ(Su et al., 2021)์ ๊ฒฝ์ฐ, ์์์ ์ค๋ช ํ๋๋ก ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ์ ์ฉํ๊ณ , ์ฆ ์๋ ํ ํฐ ์์น๋ฅผ ์ํ๋ง๋ ๋์ ์์น๋ก ์ง์ ๋์ฒดํฉ๋๋ค.
์ฐธ๊ณ ๋ก, ์ฌ๊ธฐ์๋ RoPE์ ๋ด๊ฐ ๋ง๋ ๋จ์ํ ๊ตฌํ์ด ์์ต๋๋ค. ์์ค์ ์๋ ดํ์ง๋ง ๋์์ ๊ฐ์ ์ฌํญ์ ๋์น์ฑ์ง ๋ชปํ๋๋ฐ, ์๋ง ์๋ชป๋ ๊ฒ์ผ ์๋ ์์ต๋๋ค:
๋งํ๋ฏ์ด: ๋ช ์ค์ ์ฝ๋์ ๋๋ค.
BERT ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ํด ๋ฏธ์ฝํ ์ด๋์ ๊ฐ์ ธ์จ Tao et al.์ ์ ์๋ ์๋ฃจ์ ์ ๊ธฐ์ตํ์ญ๋๊น?
์ฐ๋ฆฌ์ ์๋น ์ฐ๊ตฌ์์ ๋ณด์ฌ์ฃผ์๋ฏ์ด, ์ฐ๋ฆฌ๋ ์งง์ ๋ฌธ๋งฅ์ ์ธ์คํด์ค๋ก ๋ชจ๋ธ์ ํ๋ จํ ๋, ์์ชฝ ์์น์ ์๋ฒ ๋ฉ์ด ๋ท์ชฝ ์์น๋ณด๋ค ํจ์ฌ ๋ง์ ํ์๋ก ์ ๋ฐ์ดํธ๋ ์ ์๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ ์ฒด ์์น ๋ฒ์์ ๋ํด ์ ๋ฐ์ดํธ ํ์๋ฅผ ๊ท ํ์๊ฒ ์กฐ์ ํ๋ ๊ฒ์ด ์ง๊ด์ ์ ๋๋ค. ์ฆ, ์์ชฝ ์์น ์๋ฒ ๋ฉ์ ์ ๋ฐ์ดํธ ํ์๋ฅผ ์ค์ด๊ณ , ๋ท์ชฝ ์์น์ ๋ํด ๋ ๋ง์ ์ ๋ฐ์ดํธ๋ฅผ ์ฌํ ๋นํ๋ ๊ฒ์ ๋๋ค.
PLM(Pre-trained Language Model)์ ์ถ์ถ ๊ธฐ๊ณ๋ ํด(QA; Question Answering)๋ฅผ ์ํด ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ฒฝ์ฐ, ํจ๋ฉ ํ ํฐ์ ์์น ์๋ฒ ๋ฉ๋ง ์ ๋ฐ์ดํธํฉ๋๋ค. ํจ๋ฉ ํ ํฐ์ ํญ์ ์ ์ฒด ์ ๋ ฅ ์ํ์ค์ ๋ท๋ถ๋ถ์ ์์นํ๋ฏ๋ก, ์ ๋ ์์น ์๋ฒ ๋ฉ ๋ฐฉ์์์๋ ์ด๋ฌํ ๋ท๋ถ๋ถ ์์น ์๋ฒ ๋ฉ์ด ์ข ์ข ๋ฌด์๋ฉ๋๋ค. ๋ฏธ์ธ ์กฐ์ ์ค ํจ๋ฉ ํ ํฐ์ ์ ์ฒด ์ํ์ค์ ๋ฌด์์๋ก ๋ฐฐ์นํ ์ ์๋ค๋ฉด, ๊ฑฐ์ ๋ชจ๋ ์์น ์๋ฒ ๋ฉ์ด ์ ๋ฐ์ดํธ๋๊ฑฐ๋ ๋ฌด์๋ ๊ฐ๋ฅ์ฑ์ด ๊ฑฐ์ ๋์ผํ๋ค๊ณ ๊ธฐ๋ํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ง๋ฌธ์ด๋ ๋งฅ๋ฝ์ ํจ๋ฉ ํ ํฐ์ ์ฝ์ ํ๋ฉด ํจ๋ฉ ํ ํฐ์ ์ ์ธํ ํ ํฐ์ ์์น ๊ด๊ณ๊ฐ ๋ณ๊ฒฝ๋์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ์ํฅ์ ์ค ์ ์์ต๋๋ค. ๋ฐ๋ผ์, ์ง๋ฌธ ํ ํฐ๊ณผ ๋งฅ๋ฝ ํ ํฐ์ ์ฐ์๋ ์ํ์ค๋ก ์ ์งํด์ผ ํฉ๋๋ค. ํนํ, ๋ฏธ์ธ ์กฐ์ ์ค์๋ ํจ๋ฉ ํ ํฐ์ ์ผ๋ถ๋ฅผ ์ ๋ ฅ ์ํ์ค์ ์์ชฝ์ผ๋ก ๋ฌด์์๋ก ์ด๋์ํค๋ ๊ฒ์ ์ ์ํฉ๋๋ค. ์ด๋ ๊ทธ๋ฆผ 2์์ ๋ณด์ฌ์ง๋ ๋๋ก ์ด๋ฃจ์ด์ง๋๋ค. ๊ทธ๋ฌ๋ฉด ํจ๋ฉ์ด ์๋ ํ ํฐ์ ์ ๋ ฅ ์ํ์ค์ ๋์ชฝ์ผ๋ก ๋ฐ๋ ค๋๊ฒ ๋๊ณ , ์ด๋ก์จ ๋ท๋ถ๋ถ์ ์์น ์๋ฒ ๋ฉ์ด ์ ๋ฐ์ดํธ๋ ์ ์์ต๋๋ค.
๋ํ, Mohtashami et al.์์๋ ์ ํํ๋ ์์น ์ธ์ฝ๋ฉ์ด ํฐ ๊ฐ์ ์ ๊ฐ์ ธ์จ๋ค๋ ์ฐธ์กฐ๋ฅผ ๋ณด์์ต๋๋ค. ๋ํ, Liu et al.๋ ๋์ผํ ํจ๊ณผ๋ฅผ ๊ด์ฐฐํ์์ผ๋ฉฐ, ์ ์ฌํ ํด๊ฒฐ์ฑ ์ด ์ ์๋์์ต๋๋ค.
์ด ์น์ ์์๋ Transformer FFLM์์ ๋ํ๋๋ ์ถ๋ก ์ค๋ฅ์ ๊ธด ๊ผฌ๋ฆฌ๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํ ๋ค์ํ ์ ๊ทผ ๋ฐฉ์์ ์กฐ์ฌํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์น์ 4์์ 19M ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ(L = 6 ๋ ์ด์ด, d = 512 ์๋ฒ ๋ฉ ์ฐจ์, H = 8 ํค๋)์ ๋ํ์ ์ธ ๊ธฐ์ค์ผ๋ก ์ ํํ๊ณ , ๋ค์ํ ์ง์ ์ ๋ฐ ๊ฐ์ ์ ๊ฐ์ ์ ์ ๋ฐํ ํ๊ฐ๋ฅผ ์ํํฉ๋๋ค.
[...]
์ด์์ ์ธ ํด๊ฒฐ์ฑ : ๋ฐ์ดํฐ ์ปค๋ฒ๋ฆฌ์ง ๊ฐ์ . ์ด์ ์ฐ๊ตฌ์์ ๋ฐ์ดํฐ๊ฐ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ด ๋ช ํํด์ก์ต๋๋ค(Schuhmann et al., 2022; Eldan and Li, 2023). ๋ฐ๋ผ์, ์ฐ๋ฆฌ๋ ๊ฐ์ฅ ๋น์ฐํ ํด๊ฒฐ์ฑ ์ธ ๋ค์ํ ์์ ์ ์ง์ ์ ์ผ๋ก ํ๋ จํ์ฌ ๋ฒ์ฉ์ฑ์ด ์๋ ์ธ์ฝ์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ๊ฒํ ํ๊ธฐ ์์ํฉ๋๋ค. ์ค์ ๋ก, ์ด ๋ฐฉ๋ฒ์ด ๊ฑฐ์ ์๋ฒฝํ๊ฒ ์๋ํ๋ค๋ ๊ฒ์ ํ์ธํฉ๋๋ค:
ํฌ๊ท ์ํ์ค์ ๋ํ ํ๋ จ์ด ๊ฐ์ฅ ์ ์๋ํฉ๋๋ค. pi = {0.9, 0.98, 0.1}์ธ FFL ๋ถํฌ์ ๊ท ์ผํ ํผํฉ์ผ๋ก ํ๋ จํ๋ฉด, ๊ธฐ์ค ์ํคํ ์ฒ๋ ์ด๋ฌํ 3๊ฐ์ ๋ถํฌ ๊ฐ๊ฐ์์ ์ค๋ฅ๊ฐ ํฌ๊ฒ ์ค์ด๋๋ ์๋ฃจ์ ์ผ๋ก ์์ ์ ์ผ๋ก ์๋ ดํฉ๋๋ค(Figure 4์ teal violin). 25๋ฒ ์ค 6๋ฒ์์๋ ์ค๋ฅ๋ฅผ ํ๋๋ ๊ฐ์งํ์ง ๋ชปํ์ต๋๋ค.
์ด๋ ์๊ธฐ ์ดํ ์ ์ ํตํด ํ๋ฆฝ-ํ๋กญ์ ์คํํ ์ ์์(๋ฐ ๋ณด๋ค ์ผ๋ฐ์ ์ผ๋ก RNN๊ณผ ๊ธฐ๋ฅ์ ์ผ๋ก ๋์ผํ ๋ฐ์ดํจ์ค์ ์กด์ฌ(Liu et al., 2023))์ ๋ํ ์ด์ ์ฐ๊ตฌ์ ์ผ์นํ๋ฉฐ, (Zhang et al., 2021)์์ ์ ์ฌํ ๊ฒฐ๋ก ์ ์ป์ ์ ์์ต๋๋ค.
ํจ๊ณผ์ ์ผ๋ก, Ruoss et al.์ ์ ๊ทผ ๋ฐฉ์์ ์ผ์ข ์ ์ผ๋ฐํ๋ ๋ฌด์์ ํจ๋ฉ๊ณผ ๋น์ทํ ๊ฐ๋ ์ ๋๋ค - ์ํ๋ ๋ฌธ๋งฅ ๊ธธ์ด ํฌ๊ธฐ๋ก ์ํ์ค๋ฅผ ํ์ฅํ์ฌ ์ ๋ ฅ ์ํ์ค์ ํจ๋ฉ์ ์ ์ฉํ์ง๋ง, ์์น ์ธ์ฝ๋ฉ ๋จ๊ณ์์๋ง ์ด๋ฃจ์ด์ง๋๋ค. BERT ๋ชจ๋ธ์ ์ ๋ ์ธ์ฝ๋ฉ ์ฒด๊ณ์ ์ ์ฝ์ ๋ฐ๊ธฐ ๋๋ฌธ์ Tao et al.์ ๊ตฌํ์ ์ด๋ ์ ๋ ์ฐํ๋์์ง๋ง, ์๋ง๋ ์์ ๊ตฌํ์ ๋ํ ๋ ๋์ ์ด๋ฆ์ "ํ์ฅ๋ ์์น ์ธ์ฝ๋ฉ"์ด์์ ๊ฒ์ ๋๋ค. ํ์ง๋ง ์ด๊ฒ์ ์ ๊ฐ์ธ์ ์ธ ์๊ฒฌ์ผ ๋ฟ์ ๋๋ค.
Shifted Positional Encodings
์์ ๋ด์ฉ์ ์๊ฐ์ ๋ฐ์ "์ด๋ ๊ฒ ์ ์๋ํ๋๋ฐ, ์ธ์ฝ๋ฉ ๋จ๊ณ์์ ํ ํฐ์ ์ํ๋ ๊ธธ์ด๋งํผ ์ ์ง์ ์ผ๋ก ์ด๋์ํฌ ์๋ ์์๊น?"๋ผ๊ณ ๊ถ๊ธํด์ก์ต๋๋ค.
๋ค์๊ณผ ๊ฐ์ด,
๊ฒฐ๊ณผ์ ์ผ๋ก, ์ด๊ฒ๋ ์๋ ด์ ํ์ง๋ง ์ ์ฒด์ ์ผ๋ก ์ธ์ฝ์ด ์คํจํ์ต๋๋ค. ๋ค์ ๋งํ๋ฉด, ํ๋ จ ์ฝ๋๋ฅผ ์ด๋ป๊ฒ ์๋ชป ์์ฑํ ๊ฒ ๊ฐ์์ ์ ์๋ํ ๊ฒ ๊ฐ์๋ฐ ์คํจํ ๊ฒ ๊ฐ์ต๋๋ค.
ํธ์ง (2023๋ 6์ 25์ผ): Kiyono et al. 2021์ ์ ๋ ์์น ์๋ฒ ๋ฉ์ ๋ํ ์ ์ฌํ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ , ๊ธด ์ํ์ค์์ APE๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๊ณ ๋ณด์ฌ์ค๋๋ค.
Log-n Scaling
๋ก๊ทธ-n ์ค์ผ์ผ๋ง์ผ๋ก ์๋ํด๋ณด์์ต๋๋ค. log(n) ์ค์ผ์ผ๋ง์ ๊ตฌํํ ํ, ๊ธธ์ด์ ์ผ๋ฐํ๊ฐ ํ์ ํ ๊ฐ์ ๋์์ง๋ง ์๋ฒฝํ์ง๋ ์์์ต๋๋ค. ์ ์ด๋ ์ด๋ ์ ์ ๋ถ์์ ํ๊ฐ ํฌ๊ฒ ๊ธฐ์ฌํ๋ค๋ ๊ฒ์ ์์ฌํ๋ ๊ฒ ๊ฐ์ต๋๋ค. ๋ค์์ LLaMa 13B LoRA (๋ญํฌ 16)์์
1000๊ฐ์ ์ํ (
500๊ฐ์ 3072 ํ ํฐ ์ํ)๋ก ํ๋ จ๋ 2800๊ฐ์ ์ปจํ ์คํธ ํ ํฐ์ ๊ฐ์ง ์๋๋ฆฌ์ค์ ์ฐ์์ ์๋ํ ๊ฒ์ ๋๋ค. ๋ชจ๋ธ์ ์ฝ +320๊ฐ์ ํ ํฐ์ ์์ฑํ์ต๋๋ค:
์ฐ๋ฆฌ๋ ์ฌ๊ธฐ์ ์ ์ ํ ์ธ์ฝ์ ์์์ ๋ณผ ์ ์์ต๋๋ค. ๋ณ๊ฒฝ ์ฌํญ ์์ด๋, ๋ชจ๋ธ์ 2200๊ฐ์ ํ ํฐ ์ดํ์ ๋น ๋ฅด๊ฒ ์ค์๋ํ๋ฉฐ, 2600๊ฐ์ ํ ํฐ ์ดํ์๋ ์์ ํ ๋ฌธ์ฅ์ ์ด์ด๋ถ์ด๋ ๊ฒ์ด ์ผ๋ฐ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํฉ๋๋ค. ํ์ฅ๋ ๊ธธ์ด์์ ์ถฉ๋ถํ ๋ฐ์ดํฐ๊ฐ ์์ด์ ๋ชจ๋ธ์ด ์ด๋ฌํ ์์น๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฅด์น์ง ๋ชปํ๋ ๊ฒ์ผ ์ ์์ต๋๋ค. ๋๋ LoRA๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋ ๋ชจ๋ธ ๊ฐ์ค์น๊ฐ ์์ง ๋๊ฒฐ๋์ด ์ถฉ๋ํ ์๋ ์์ต๋๋ค. ๋์์, ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ ์์น๋ฅผ ์ด๊ณผํ์ฌ ์ธ์ฝํ๋ ๋ฒ์ ๋ฐฐ์ฐ๊ธฐ๋ฅผ ์ํ๊ธฐ ๋๋ฌธ์ 3072 ํ ํฐ๋ณด๋ค ์์ ๋ฐ์ดํฐ๋ก ํ๋ จํ ์ ์๊ธฐ๋ฅผ ์ํฉ๋๋ค. ํ์ง๋ง ์ด๊ฒ์ ์ ์ด๋ ๋ชจ๋ธ์ด ์ฒ์๋ถํฐ ๋ค์ ํ๋ จํ์ง ์๊ณ ๋ 2048์ ์ด๊ณผํ ์ ์๋ค๋ ๊ฒ์ ์ ๋์ ์ผ๋ก ํ์ธํฉ๋๋ค.
๊ทธ๋ฐ ๋ค์, ์๋์ฐ ํฌ๊ธฐ๊ฐ 8192์ด๊ณ ํ ํฐ ์คํ์ ์ด 2048๋ก ์ค์ ๋ ์ํ์์ ์ํํธ๋ ์์น ์ธ์ฝ๋ฉ์ ์ถ๊ฐํ์ฌ ๋ค์ ์๋ํฉ๋๋ค. ๋ฐฐ์น๋ง๋ค 2048์ฉ ์คํ์ ์ ์ฆ๊ฐ์ํจ ํ 0์ผ๋ก ๋์๊ฐ๋๋ค. ์ฒ์์๋ ๋ชจ๋ธ์ด ์ ๋๋ก ์๋ ดํ๋ฉฐ, ์์น 6143๊น์ง ์์ค์ด 2.378๋ก ๊ฐ์ํฉ๋๋ค (์์ ์ ์คํ์ 0์์ 4.36). ๊ทธ๋ฌ๋ ๋ง์ง๋ง ์์น ๋ฒํท(6144 ~ 8191)์์ ์์ค์ด ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐํ๊ธฐ ์์ํฉ๋๋ค (49155๊น์ง ์ฆ๊ฐ). 8192๊น์ง์ ์ข ์์ฑ์ LoRA ํ์ต์ ํตํด ๋จ๋ ์ผ๋ก ์บก์ฒํ์ง ๋ชปํ๋ ๊ฒ ๊ฐ์ต๋๋ค. ์๋ง๋ AdamW์ ๊ด๋ จ๋ ๋ฌธ์ ์ผ ์ ์๊ฑฐ๋ ๋ค๋ฅธ ํ์ต๋ฅ ์ค์ผ์ค์ ์ฌ์ฉํด์ผ ํ ์๋ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์๊ฐ์ด ์ง๋๋ฉด์ ์์ค์ด ๋ค์ 19232๋ก ๊ฐ์ํ๊ธฐ ์์ํ์ต๋๋ค. ์ฒดํฌํฌ์ธํธ์์ ํ๋ จ์ ๊ณ์ํ๋ ๋ง์ง๋ง ๋ฒํท์ ์์น๋ฅผ ๊ณ ์ ํ์ฌ ์๋ ดํ ์ ์๋์ง ํ์ธํด ๋ณด์์ง๋ง ์คํจํ์ต๋๋ค.
์ค์ผ์ผ๋ง ์์ด ํ๋ จ์ ๋ฐ๋ณตํด๋ณด์์ง๋ง (๋จ์ํ ์์น๋ฅผ ์ํํธํ๋ ๊ฒ์ด ์ถฉ๋ถํ์ง ํ์ธํ๊ธฐ ์ํด), ๋์ผํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ต๋๋ค - ์๋ ดํ์ง ์์์ต๋๋ค.
Remember the Basics
์ด ๋ชจ๋ ๋ด์ฉ์ ์ฝ๊ณ ์คํํ ํ์ ์๊ฐํ ์ ์๋ ๊ฒ์ ์ธ์์ด ๋ค์ง์ด์ ธ ์์ ๊ฒ์ด๋ผ๋ ๊ฒ์ ๋๋ค. ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ด ์ธ์ฝ(extrapolation)์ ํ ์ ์๋ ์ด์ ๋ ์์ด ๋ณด์ด์ง๋ง, ๊ทธ๋ ๊ฒ ํ ์ ์์ต๋๋ค. ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์๋ฒฝํ ์ธ์ฝ์ด ๊ฐ๋ฅํด์ผ ํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ์ง๋ง, ๊ทธ๋ ๊ฒ ํ ์ ์๋ ๋ฅ๋ ฅ์ด ์ ํ๋๊ฑฐ๋ ์ต์ ๋๊ณ ์์ต๋๋ค - ์์น ์ธ์ฝ๋ฉ ์ธ๋ถ์ ์ด๋ค ์์, ์ดํ ์ ์์ฒด ์ธ๋ถ์ ์ด๋ค ์์, ์๋ง๋ ๋ชจ๋ธ ์ํคํ ์ฒ ์ธ๋ถ์ ์ด๋ค ์์์ผ ๊ฒ์ ๋๋ค. ๋์ ๋์ง ์์ ์ด๋ค ๋ถ๋ ์์์ ์ค๋ฅ๊ฐ ์๋ ๊ฑธ๊น์? ์๋๋ฉด ๋ณ์ ์(transformer) ์์ฒด์ ๋์์ธ์ ๋ณ๊ฒฝํ๊ณ ๋ชจ๋ ๊ฒ์ ๋ค์ RNN์ผ๋ก ์ ํํด์ผ ํ ๊น์?
์ด ๋ชจ๋ ๊ฒ ์ค์์๋ ์ ๋ ๋๊ด์ ํ ์คํธํด๋ณด์ง ์์๋ค๋ ๊ฒ์ ๊นจ๋ฌ์์ต๋๋ค: ์ดํ ์ ๊ฐ ์์ฒด๋ฅผ ์ ๊ฑฐํด ๋ณด๋ ๊ฒ; ์ดํ ์ ๋งต์ ์์ ๋ ๊ฒ?
Clamping and Masking
๋จผ์ , ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์ดํ ์ ๋ง์คํฌ๋ฅผ ๊ตฌ์ฑํ์ต๋๋ค. ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์ดํ ์ ์ Longformer์์ ์๊ฐ๋์์ผ๋ฉฐ ๋ค์๊ณผ ๊ฐ์ ํํ๋ฅผ ๊ฐ์ง๋๋ค:
๋ค์ ๋งํด, ๊ฐ ํ ํฐ์ ์ด์ w๊ฐ์ ํ ํฐ๋ง ๋ณผ ์ ์์ผ๋ฉฐ, ์ฌ๊ธฐ์ w๋ ์๋์ฐ ํฌ๊ธฐ์ด๋ฉฐ, ์ด ๊ฒฝ์ฐ w = 2์ ๋๋ค. ์ด์ ์๋์ฐ ์ดํ ์ ์ ์๋ํด์ผ ํฉ๋๋ค. ์๋ํ๋ฉด Longformer, Landmark Attention, BigBird์์ ์๋ํ๋ฉฐ, XPos์ ๋ํด์๋ ์๋ํ๊ธฐ ๋๋ฌธ์ ๋๋ค (๋ธ๋ก๋ณ ์ธ๊ณผ์ ์ดํ ์ ํํ๋ก ์๋ํ์ง๋ง, ํจ๊ณผ๋ ๋๋ต์ ์ผ๋ก ๊ด๋ จ๋์ด ์์ต๋๋ค. ๋ชจ๋ ๋ก์ปฌ ์ดํ ์ ์ฒด๊ณ์ ๋๋ค. ๊ทธ์ ์๋์ฐ๊ฐ ๋ ํน์ดํ ๊ฒ๋ฟ์ ๋๋ค).
๊ทธ๋ฐ๋ฐ, ์์ฑ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉด ์ฌ์ ํ๋ จ๋ ์ปจํ ์คํธ ํ๊ณ๊น์ง ์ ์๋ํ ๋ค์, ์ผ๊ด์ฑ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋๋ค. ์ด๊ฒ์ ์ ํ ์ด์น์ ๋ง์ง ์์ต๋๋ค. ๋ชจ๋ธ์ด ์ด์ 3๊ฐ ๋๋ 30๊ฐ์ ํ ํฐ๋ง ๋ณผ ์ ์๊ณ , 30๊ฐ์ ํ ํฐ์ ์ฃผ๋ฉด ์ผ๊ด๋ ํ ์คํธ๋ฅผ ์์ฑํ ์ ์๋๋ฐ, ๋์ผํ ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์ฌ ์ ์์ด์ผ ํ๋ ๋ง์คํฌ๋ฅผ ์ฌ์ฉํ์ ๋ ์ ์คํจํ๋ ๊ฑธ๊น์?
๋ํ, ์ดํ ์ ๋ก์ง์ ํด๋จํํ์ฌ ํน์ ์๊ณ๊ฐ ์ดํ์ ๊ฐ์ ์ฌ๋ผ์ง๋๋ก ํ์ต๋๋ค. ํ์ง๋ง ์๋ฌด๋ฐ ํจ๊ณผ๊ฐ ์์์ต๋๋ค.
ํ๋ฃจ ์ ๋ ๊ณ ๋ฏผํ๊ณ ๋ ๊น๊ฒ ํ๊ณ ๋ค๋ฉด์ Ofir Press์ ALiBi์ ๊ตฌ๋ ๋ฐํ๋ฅผ ์ฐ์ฐํ ๋ฐ๊ฒฌํ์ต๋๋ค. ๊ฐ์๊ธฐ ๋๊ฐ ๋ฒ์ฉํ๋ฉฐ ๋ชจ๋ ๊ฒ์ด ์ดํด๋๊ธฐ ์์ํ์ต๋๋ค.
A Bigger Problem
๊ฐ๋จํ ๋งํด์, Press์ ์ง๊ฐ์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ด ์๋์ ์ธ ๊ฑฐ๋ฆฌ๋ ํ์ ์์์ ๋ฐ๋ผ ์์น๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ์ง ์์๋ค๋ ๊ฒ์ ๋๋ค. ์ฐ๋ฆฌ๊ฐ ํฌ๋งํ๋ ๊ฒ๊ณผ๋ ๋ฌ๋ฆฌ, ๋ณ์ ์๊ฐ ๊ฐ์ฅ ์ํ๋ ๋๋ก, ํ ํฐ๊ณผ ๊ทธ ์์น์ ์ค์ผ์ผ๋ง ์์๋ฅผ ๊ธฐ์ตํจ์ผ๋ก์จ ๋ฐ๋ก๊ฐ๊ธฐ๋ฅผ ๋ฐฐ์ ์ต๋๋ค.
๊ฐ๋จํ ์๋ฅผ ๋ค์ด๋ณด๊ฒ ์ต๋๋ค - ์ถ๊ฐ์ ์ธ ์ธ๋ถ ์กฐ์ ์์ด LLaMa 13B. apply_rotary_pos_emb๋ฅผ ๋ณ๊ฒฝํ์ฌ 2048์ ๋์ด๊ฐ๋ฉด ์์น๋ฅผ ๋ฃจํํ์ฌ ์ฌ์ฉํฉ๋๋ค:
์ด ํ ์ค์ ์ฝ๋ ๋ณ๊ฒฝ์ผ๋ก ๋ชจ๋ธ์ 3000๊ฐ์ ํ ํฐ์ ๋์ด์ ์ํ์์๋ ์ผ๊ด์ฑ์ ์ ์งํ๊ณ ์์ต๋๋ค! ์ฌ์ค, ์ ๋ ฅ ์ํ์ค๊ฐ 2048์ ๊ฐ๊น์ธ์๋ก ์ถ๋ ฅ์ด ๋ ์ผ๊ด์ฑ ์์ด์ง์ ์ ์ ์์์ต๋๋ค - ๋ชจ๋๋ก๊ฐ 0์ผ ๋๋ ์์ ํ ํ์๋ฆฌ์ด์ง๋ง, 2048 ํ ํฐ๋ง๋ค ์๋ฒฝํ ์ธ์ฝ์ด ์ด๋ฃจ์ด์ง๋๋ค.
๊ทธ๋ฐ ๋ค์ ๋ธ๋ก ๋ฐ๋ณต ์์น๋ฅผ ์๋ํด ๋ณด์์ต๋๋ค - ์ ํํ ์ฃผํ์๋ฅผ ์ผ์ ํ ๋ธ๋ก์ ์์น์ ๋ฐ๋ณตํ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, L์ด ์ฌ์ ํ๋ จ๋ ์ํ์ค ๊ธธ์ด์ธ ๊ฒฝ์ฐ [1, 2, 3, 4, 5, 6, 7, 8, 9 ... L] ๋์ [1, 1, 1, 1, 2, 2, 2, 2, ... L, L, L, L]๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ชจ๋๋ก๋ณด๋ค ๋ ์ ์๋ํ์ต๋๋ค. ์ง๊ด์ ์ผ๋ก ๋งค์ฐ ๊ฐ๋จํฉ๋๋ค: ๋ชจ๋ธ์ [0, L] ์ฌ์ด์ ๋ชจ๋ ์์น๋ฅผ ์๊ณ ์์ผ๋ฏ๋ก, ๊ทธ ๋ฒ์์ ๋ง์ถฐ ํ์ตํ๋ ๊ฒ์ด ๋ ์ข์ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํ ๋๋ก ๋น๋ ๋จ๊ณ์ ์ํฅ์ ์ฃผ๋ ํ ์ค์ ์ฝ๋๋ก ๋ณ๊ฒฝํ์ต๋๋ค:
4๋ก ์ ํํ ์ด์ ๋ OpenAI๊ฐ ์ปจํ ์คํธ ํฌ๊ธฐ๋ฅผ 4๋ฐฐ์ฉ ์ฆ๊ฐ์ํค๊ณ ์๋ค๋ ๊ฒ์ ์์์ฑ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๊ฒ์ด ๊ทธ๋ค์ด ์ปจํ ์คํธ๋ฅผ ์ฆ๊ฐ์ํค๋ ๋ฐฉ๋ฒ์ธ์ง๋ ๋งํ์ง ์์ต๋๋ค๋ง, ์ซ์๋ฅผ ์ป์ ๊ณณ์ ๋๋ค. ์ด๋ฌํ ์กฐ์ ๋ ๋น๋ ์ฒ๋์์ ๋ชจ๋ธ์ ์ธ๋ฐํ๊ฒ ํ๋ํ๋ฉด ์์์ ๊ธธ์ด์ ์ธ์ฝ์ด ๊ฐ๋ฅํด์ง๋๋ค: ์ํ์ค๊ฐ [0, L] ๋ฒ์ ๋ด์ ๋ง์ผ๋ฉด ์ํ์ค ๊ธธ์ด์ ์ ํ์ด ์์ด ๋ณด์ ๋๋ค.
Other Takeaways
EOS Token
EOS ํ ํฐ์ ํฌ๊ฒ ๊ธฐ์ฌํ์ง ์๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์๋๋ฉด ๊ทธ ์ํฅ๋ ฅ์ด ๋ค๋ฅธ ๊ธธ์ด ๋จ์์ ๊ฐ๋ ค์ ธ ์๋ ๊ฒ ๊ฐ์ต๋๋ค (์ด๋ ์ด๋ฏธ ์ง์ ๋ฏธ์ธ ์กฐ์ ๋ชจ๋ธ์์ ์ผ๋ฐ์ ์ ๋๋ค).
Newman ๋ฑ (2020)
์ฐ๋ฆฌ๋ -EOS+Oracle ๋ชจ๋ธ์ด [SCAN์์] ๋ชจ๋ ๊ธธ์ด ๋ถํ ์์ +EOS+Oracle ๋ชจ๋ธ๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ๋ํ ์ฐ๋ฆฌ๋ ๊ธธ์ด 26๊น์ง์ ์ํ์ค๋ฅผ ํฌํจํ ํ์๋ ๋ชจ๋ธ์ด ์๋ก์ด ํ ํ๋ฆฟ์ ์ถฉ๋ถํ ์์ ๋ณด์๊ธฐ ๋๋ฌธ์ ๋๋จธ์ง ๊ธด ์ํ์ค์์ ์ ํ๋ ≥ 80%๋ก ์ํํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค. ๊ทธ๋ฌ๋, -EOS ๋ชจ๋ธ์ด ์ฑ๊ณตํ๋ ์ด์ ๋ ์ฌ์ ํ ์๋ฌธ์ ๋๋ค. +EOS ๋ชจ๋ธ์ ๋น-oracle ์ค์ ์์ ์ํ์ค๊ฐ ์ค์ ๋ก ๋๋๊ธฐ ์ ์ ๋๋์ผ ํ๋ค๊ณ ์์ธกํ์ฌ ์คํจํ๊ณ , +EOS+Oracle ๋ชจ๋ธ์ ์ต๋ ํ๋ จ ์ํ์ค ๊ธธ์ด๋ฅผ ๋์ฝ๋ฉํ ํ์๋ ๋ง์ง๋ง ํ ํฐ์ ๋ฐ๋ณตํ๊ฑฐ๋ ๊ด๋ จ ์๋ ํ ํฐ์ ์์ฑํ๋ ๊ฒฝํฅ์ด ์์ด ์คํจํฉ๋๋ค. ๊ทธ๋ฌ๋ -EOS+Oracle ๋ชจ๋ธ์ ํ์ํ ๊ฒฝ์ฐ์ ๋ง์ง๋ง ๋ช ๊ฐ์ ํ ํฐ์ ๋ฐ๋ณตํ์ฌ ์๋ฅผ ๋ค์ด thrice ๋ช ๋ น์ ๋ง์ง๋ง ๋ถ๋ถ์ ์๋ฃํ๋ ๋ฐฉ์์ผ๋ก ์ฑ๊ณตํฉ๋๋ค.
๊ทธ๋ฌ๋ ๋์ค์,
[WMT2009 ๋ ์ผ์ด์์ ์์ด ๋ฒ์ญ]์ +EOS์ -EOS ๋ชจ๋ธ์ ์ฑ๋ฅ์ SCAN๊ณผ ๋น๊ตํ์ ๋ ๊ฑฐ์ ์ฐจ์ด๊ฐ ์๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, -EOS ๋ชจ๋ธ์ด +EOS ๋ชจ๋ธ๋ณด๋ค ๋ ์์ฃผ ๋๋ฉ์ธ ๋ฐ ์ค์ ์์ ์ฑ๋ฅ์ด ์ฐ์ํ๋ค๊ณ ํ ์ง๋ผ๋, EOS ํ ํฐ์ ์ ๊ฑฐํ๋ ๊ฒ์ ์ธ์ฝ์ ๋์์ด ๋์ง ์๋๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์ต๋๋ค. [...] EOS ํ ํฐ์ ์กด์ฌ๊ฐ ๋ ๊ด๋ จ์ด ์๋ ์ด์ ๋ ์์ชฝ ์กฐ๊ฑด์ ๋ชจ๋ธ์ด ๋ชจ๋ ๊ธธ์ด์ ๋ํ ๋ฏธ๋ฌํ ์งํ๋ฅผ ๋ ์ ์ธ์ํ๋ ๊ฒ์ผ ๊ฐ๋ฅ์ฑ์ด ํฝ๋๋ค.
๋ํ, Chowdhury & Caragea (2023)์์๋ ๋ค์๊ณผ ๊ฐ์ด ๊ธฐ์ ํฉ๋๋ค.
EOS ๋ฌธ์ ์ ๋ํด: EOS ํ ํฐ์ ์ํ์ค์ ๋์ ๋ํ๋ด๊ธฐ ์ํด ๋ชจ๋ธ์ด ์์ฑํด์ผ ํ๋ ํน์ํ ๋ง์ปค์ ๋๋ค. ๋น์ทํ ๋งฅ๋ฝ์์ ์ผ๋ถ ์ด์ ์์ ์์๋ ์ค๋ผํด EOS ์์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ ์์ฑ์ ์ข ๋ฃํ๊ฑฐ๋ ์์ธก๋ EOS ์์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค๋ผํด ์ํ์ค๋ฅผ ์๋ฅด๋ ๋ฐฉ์์ผ๋ก ํ๊ฐ๋ฅผ ๋ ์๊ฒฉํ๊ฒ ๋ง๋ค๋ ค๊ณ ์๋ํด ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ ๋นํ์ค์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ํ๊ฐ๋ฅผ ์์ ํ์ง ์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ฐ๋ฆฌ๋ EOS ์์ธก์ด ๋ฌธ์ ๊ฐ ๋์ง ์๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์ธ๋์ ํธํฅ์ด ์์ ์ ์ ํฉํ๋ค๋ฉด, ๋ชจ๋ธ์ ๋ณ๋์ EOS ์์ธก ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ง ์๊ณ ๊ฑฐ์ ์๋ฒฝํ๊ฒ ์ผ๋ฐํํ๋ ๋ฐฉ๋ฒ์ ํ์ตํฉ๋๋ค.
Random Padding in other NNs
Yang ๋ฑ (2023)์ CNN์์ ๋ฌด์์ ํจ๋ฉ์ด ์ผ๊ด๋๊ฒ ๊ธฐ๋ฅ ํ์ต์ ํฅ์์ํค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
No Positional Encoding
๊ทธ๋ฌ๋ Lasri ๋ฑ (2022)๋ ๋ง์คํฌ๋ ์ธ์ด ๋ชจ๋ธ๋ง์ ๊ฒฝ์ฐ ์ด ๋ฐฉ๋ฒ์ด ๋์ํ์ง ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
Model Context Overcapacity?
๋๋ (์๋ง๋) @lucidrains๊ฐ ๋๊ธ๋ก ๋จ๊ธด ์ด Reddit ๊ธ์ ์ฐพ์ ์ ์์์ต๋๋ค.
์ง์์ ์ปจํ ์คํธ ๊ธธ์ด์๋ ์ฉ๋ ์ ํ์ด ์์ ์ ์๋ค๋ ์ฌ์ค์ ๋ชจ๋ ์ฌ๋๋ค์ด ์์์ผ ํ ์ค์ํ ์ฌ์ค์ ๋๋ค. ์ด ๋ ผ๋ฌธ์์ ํ์ํ ๋๋ก gpt4๋ ์ด๋ฌํ ์ ํ์ด ์์ ์ ์์ง๋ง, llama์ ๊ฐ์ ๋ ์์ ๋ณํ์ ๊ทธ๋ ์ง ์์ ์ ์์ต๋๋ค. ๋ํ ํด๊ฒฐํ๋ ค๋ ์์ ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค. ์ผ๋ถ ์ฌ๋๋ค์ด '๋ฌดํํ ์ปจํ ์คํธ'๋ฅผ ์ ๊ณตํ ์ ์๋ค๊ณ ํ๋งคํ๋ ค๊ณ ํ ์ง๋ผ๋, ๋ ๋ง์ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค... ํฌ๋ง์ ์ผ๋ก pytorch 2.0์ด ๊ทธ์ ์ด๋๊ฒ ๋ ๊ฒ์ ๋๋ค.
๊ทธ ๋ ผ๋ฌธ์ ๋ํด ๊ณ ๋ง์ต๋๋ค. ์ธ์ ๊ฐ ์ ์ ๊ทธ ๋ ผ๋ฌธ์ ์ ํ์ง๋ง ์์ง ์ฝ์ง๋ ์์์ต๋๋ค. ์ ํ์ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์์ ์์ธ๊ฐ์, ์๋๋ฉด ์๋ฒ ๋ฉ์ ํฌ๊ธฐ์ธ๊ฐ์. ๋๋ ์๋ฒ ๋ฉ์ ํฌ๊ธฐ๊ฐ ์ปจํ ์คํธ์ ํฌ๊ธฐ์ ๊ฐ์ฅ ํฐ ์ํฅ์ ๋ฏธ์น ๊ฒ์ผ๋ก ์์ฌํฉ๋๋ค.
๋ค, ํจ์จ์ ์ธ ์ดํ ์ ๋ถ์ผ์์ ๋ฌธํ์ ๋ถ์กฑํ๋ฉฐ ๋งค์ฐ ํผ์ฌ๋์ด ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ง์-ํค ์ฐจ์ (d_dot)์ด๋ผ๊ณ ์ฃผ์ฅํ์ง๋ง, ํค๋ ์์๋ ์์กดํด์ผ ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ์ด ์ฃผ์ ๋ฅผ ํ๊ตฌํ ๋ค๋ฅธ ๋ ผ๋ฌธ์ ์์ง ๋ชปํฉ๋๋ค. ๊ทธ๋ gpt4๋งํผ ์ ์๋ํ์ง ์์ ์๋ ์๋ค๊ณ ํ์ฌ๋, ์ฌ๋๋ค์ด ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ๋๋ฆฌ๊ณ ๊ฒฐ๊ณผ๊ฐ ๊ทธ๋ ๊ฒ ์ ๋์ง ์์ ๊ฒฝ์ฐ ๋๋ผ์ง ์๊ธฐ๋ฅผ ๋ฐ๋๋๋ค.
ํ์ง๋ง, ๋๋ ๊ทธ ๋ ผ๋ฌธ์ ์ฝ์ ๋ ๊ทธ๋ ๊ฒ ๋๋ผ์ง ์์์ต๋๋ค. ์ฆ, ํ์ฌ์ ์ํคํ ์ฒ๊ฐ ์ฌ์ฉ์๋ฅผ 2048 ์ํ์ค ๊ธธ์ด์๋ง ๊ตญํ์์ผ์ผ ํ๋ค๊ณ ๋๋ผ์ง ์์์ต๋๋ค. ๊ทธ์ ๋ต๋ณ์ ํด๋นํ๋ ๋ถ๋ถ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค.
๋ฌดํํ ์ฐ๊ด์ฑ์ ํ์ ๋ ํฌ๊ธฐ์ ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ ์ถ๊ฐํ๋ ๊ฒ์ ๊ฒฐ๊ตญ ํ๊ณ์ ๋๋ฌํ ๊ฒ์ ๋๋ค. ์ ํ ์ดํ ์ ์์๋ ์ ๋ณด๊ฐ ํ๋ ฌ์ ์ ์ฅ๋๊ณ ํ๋ ฌ ๊ณฑ์ ์ ์ฌ์ฉํ์ฌ ๊ฒ์๋ฉ๋๋ค (๋ฐฉ์ ์ 19 ์ฐธ์กฐ). ๋ฐ๋ผ์ ๊ฐ ํค๊ฐ ์๋ก ๊ฐ์ญํ์ง ์๋๋ก ํ๋ ค๋ฉด ํค๋ ์๋ก ์ง๊ตํด์ผ ํฉ๋๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด ๋ด์ ์ด ํ๋ ์ด์์ ํค์ ์ฃผ๋ชฉํ๊ณ ๊ฐ์ ์ ํ ์กฐํฉ์ ๋ฐํํ ๊ฒ์ ๋๋ค. ddot ๊ณต๊ฐ์ ํค๊ฐ ํฌํจ๋ ๊ฒฝ์ฐ, ddot ์ง๊ต ๋ฒกํฐ๋ณด๋ค ๋ง์ ์์ ์ฐ๊ด์ฑ์ ์ ์ฅํ ์ ์์ต๋๋ค. ์ฆ, ddot๋ณด๋ค ๋ง์ ์ฐ๊ด์ฑ์ ์ ์ฅํ๋ฉด ๊ฒ์ ์ค๋ฅ๊ฐ ๋ฐ์ํฉ๋๋ค. ์ ํ ํธ๋์คํฌ๋จธ์์ ์ํ์ค์ ๊ธธ์ด๊ฐ ddot๋ณด๋ค ๊ธธ๋ฉด ๋ชจ๋ธ์ ์ด๋ฌํ ๊ณผ์ ์ฉ๋ ์์ญ์ ์์ ์ ์์ต๋๋ค.
4.1 ์น์ ์ ์ ํ ํธ๋์คํฌ๋จธ๊ฐ ์ํ์ค ๊ธธ์ด L์ด ํค์ ์ฐจ์ ddot์ ์ด๊ณผํ ๊ฒฝ์ฐ ๊ณผ๋ํ ์ฉ๋ ์ํ์ ๋น ์ง ์ ์๋ค๋ ๊ฒ์ ์ฃผ์ฅํฉ๋๋ค. ๊ณผ๋ํ ์ฉ๋ ์ํ์ ์์ ๋ ์ด์์ ์ธ ๋ฉ๋ชจ๋ฆฌ ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ๋ด์ฉ๊ณผ ๋์ ์ผ๋ก ์ํธ์์ฉํ๊ณ ๊ธฐ์ตํ๊ฑฐ๋ ์์ ์ฐ๊ด์ ์ ํ์ ์ผ๋ก ๊ฒฐ์ ํด์ผ ํฉ๋๋ค. ์ด๋ ํ์ค ํธ๋์คํฌ๋จธ๊ฐ ์ฐ๊ฒฐ(concatenation)์ ํตํด ํค์ ๊ฐ ๋ฒกํฐ์ ๋ถ๋ณํ ์์ ์ ์ฅํ๋ ๊ฒ๊ณผ๋ ๋์กฐ์ ์ ๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ ์ค์ ๋ก ์ ์๋ํ์ง๋ง, ์ด์ ์ ์ต๋ํ ์ง์์ ์ ๋ฐ์ดํธํ ์ ์๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๋ง์ ๋ฌธ์ ์ ์์ด ์ค์ํ๋ค๊ณ ์ฌ๊ฒจ์ง๋๋ค. ๋ฐ๋ผ์ ๋ฉ๋ชจ๋ฆฌ์์ ๋์ ์ํธ์์ฉ ๊ด์ ์์ Eqs. 17์ ๋จ์ ๊ฐ์ฐ ์ ๋ฐ์ดํธ ๊ท์น์ ์ต์ ์ด ์๋ ์ ์์ต๋๋ค.
์ด๋ฅผ ํตํด ์ ๋ ์ ์๋ค์ด ์ ๋ ผ๋ฌธ๋ค๊ณผ ๋์ํ ๊ฒ์ด๋ผ๋ ์ธ์์ ๋ฐ์์ต๋๋ค. ๊ฒ๋ค๊ฐ, ์ด ๋ ผ๋ฌธ์ ์ฑ๋ฅ ํฅ์์ ์ํด ๋ชจ๋ธ์ ํน์ ํ ํฐ์ ๋ฌด์ํ๋๋ก ๊ฐ๋ฅด์น๋ Anil์์ ์ ์๋ ํต์ฌ ์์ด๋์ด๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ์ธ์ ํฉ๋๋ค.
๊ฒ์์์๋ ์ฌ์ ํ Softmax๊ฐ ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
Iterative vs. 1-shot feedback
Bueno ๋ฑ์ ์ฐ๊ตฌ์์ ๊ธธ์ด ์ผ๋ฐํ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ์๊ธฐํด ๋ณด์ญ์์ค. ๋ ํฅ๋ฏธ๋ก์ด ์ ์ OpenAI์ GSM8K ๋ ผ๋ฌธ์์ ์ด ์ ๊ทผ ๋ฐฉ์์ ์ผ๋ถ ํ์ ์ ๋ณผ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ํ ํฐ ์์ค์ ๊ฒ์ฆ๊ธฐ๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ GSM8K ์์ ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ์ด๋ค ์๋ฏธ์์๋ ๋งํฌ์ ํ ํฐ์ ์ฌ์ฉ์ด ํ ํฐ ์์ค์ ๊ฒ์ฆ๊ธฐ์ ๋ค์ ์ ์ฌํ๋ฉฐ, ์ด๋ ์์ฑ์์๊ฒ ๊ฐ ์ถ๋ก ๋จ๊ณ ์ดํ์ ์ ์ฉํ ์ ํธ๋ฅผ ์ ๊ณตํ์ฌ ํ์ ๋จ๊ณ์ ๋ํ ํ๋ฅ ์ ๋ณ๊ฒฝ์ํต๋๋ค. ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ๊ฒ์ฆ๊ธฐ๋ ์์ฑ์์ ๋ณ๊ฐ๋ก ์ฌ์ฉ๋์ง๋ง, ์ ์๋ค์ ์ด๋ฅผ ๊ฒฐํฉํ ์ ์๋ค๊ณ ์ธ๊ธํฉ๋๋ค. ์๋ง๋ ์ฐ๋ฆฌ๋ ์์ ํ ๋ณ๊ฐ์ ๋ชจ๋ธ์ด๋ ์ฌ์ง์ด ์ ์๊ฐ ์๋๋ผ ๋จ๊ณ ์๋ฃ์์์ ๋ช ๋ฐฑํ ํผ๋๋ฐฑ๋ง ํ์ํ ์ง๋ ๋ชจ๋ฆ ๋๋ค?
์ฐ๋ฆฌ๋ ์์ฑ๋ ์๋ฃจ์ ์ ์ฒด์ ๋ํด ๋จ์ผ ์ค์นผ๋ผ ์์ธก์ ์กฐ๊ฑด์ผ๋ก ํ๋ ๊ฒ์ฆ๊ธฐ๋ฅผ ํ๋ จ์ํฌ ์๋ ์๊ณ , ์๋ฃจ์ ์ ๊ฐ ํ ํฐ ์ดํ์ ์ค์นผ๋ผ ์์ธก์ ์ํํ๋๋ก ํ๋ จ์ํฌ ์๋ ์์ต๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ํ์๋ฅผ ์ ํํ๊ณ , ํ ํฐ ์ดํ์ ์์ธก์ ์ํํ๋ ๊ฒ์ฆ๊ธฐ๋ฅผ ํ๋ จ์ํต๋๋ค. ์ด๋ ํ ํฐ ์์ค์ ๊ฐ์น ํจ์๋ก ๋ณผ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ Figure 6a์์ ์ด ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋น๊ตํ์์ผ๋ฉฐ, ๊ฐ๊ฐ "solutionlevel"๊ณผ "token-level"์ด๋ผ๊ณ ๋ผ๋ฒจ์ ๋ถ์์ต๋๋ค. ํ ํฐ๋ง๋ค ๊ฐ์น ํจ์๋ฅผ ์์ธกํ๋ ๊ฒ์ ์ต์ข ์๋ฃ๋ง ํ๋จํ๋ ๊ฒ๋ณด๋ค ๋ ์ด๋ ค์ฐ๋ฉฐ ๋ ธ์ด์งํ ์์ ์ ๋๋ค. ๊ทธ๋ฌ๋ ์ด๊ธฐ์ ํ๋ จ ์๋๊ฐ ๋๋ฆฌ๋๋ผ๋, ํ ํฐ ์์ค์ ๊ฒ์ฆ๊ธฐ๊ฐ ๊ฒฐ๊ตญ ์๋ฃจ์ ์์ค์ ๊ฒ์ฆ๊ธฐ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ๊ฒ๋ค๊ฐ, ํ ํฐ ์์ค์ ๊ฒ์ฆ๊ธฐ๋ ํ๋ จ ํ๋ฐ์๋ ๊ณ์ํด์ ์ฑ๋ฅ์ด ํฅ์๋๋ ๋ฐ๋ฉด, ์๋ฃจ์ ์์ค์ ๊ฒ์ฆ๊ธฐ๋ ๊ณผ์ ํฉ์ ์งํ๋ฅผ ๋นจ๋ฆฌ ๋ณด์ ๋๋ค. ์ฐ๋ฆฌ๋ ์ ์ฒด ๊ฐ์น ํจ์๊ฐ ๋ชจ๋ธ์ด ์ต์ข ์ ๋ต์ ๊ธฐ์ตํ๋ ๊ฒ์ด ์๋๋ผ ์๋ฃจ์ ๋ด์์ ์ถ๋ก ์ ํ๋จํ๋ ๋ฐ ์ ์ฉํ ๋ณด์กฐ ์ ํธ๋ฅผ ์ ๊ณตํ๋ฏ๋ก ์ ์ฉํ๋ค๊ณ ์ถ์ธกํฉ๋๋ค.
์์ด๋ฌ๋ํ๊ฒ๋, OpenAI ์์ฒด๊ฐ Lightman et al. 2023์์ ์ด๋ฅผ ํ์ธํ๋ ๊ฒ ๊ฐ์ต๋๋ค.
๋ ์ ๋ขฐํ ์ ์๋ ๋ชจ๋ธ์ ํ๋ จํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ ์ต์ข ๊ฒฐ๊ณผ์ ๋ํ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ ๊ฒฐ๊ณผ ์ง๋ ํ์ต(outcome supervision)์ด๋ ๊ฐ ์ค๊ฐ ์ถ๋ก ๋จ๊ณ์ ๋ํ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ ๊ณผ์ ์ง๋ ํ์ต(process supervision) ์ค ํ๋๋ก ์ ํํ ์ ์์ต๋๋ค. ์ ๋ขฐํ ์ ์๋ ๋ชจ๋ธ์ ํ๋ จํ๋ ๊ฒ์ ์ค์์ฑ๊ณผ ์ธ๊ฐ์ ํผ๋๋ฐฑ ๋น์ฉ์ ๋์์ ๊ณ ๋ คํ ๋, ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ์ ์คํ๊ฒ ๋น๊ตํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ์์๋ ์ด๋ฏธ ์ด๋ฌํ ๋น๊ต๋ฅผ ์์ํ์ง๋ง, ์์ง ๋ง์ ์ง๋ฌธ์ด ๋จ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ์์ฒด์ ์ธ ์กฐ์ฌ๋ฅผ ์งํํ์ฌ, ๊ณผ์ ๊ฐ ์ด๋ ค์ด MATH ๋ฐ์ดํฐ์ ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณผ์ ์ง๋ ํ์ต์ด ๊ฒฐ๊ณผ ์ง๋ ํ์ต๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ฐ๋ฆฌ์ ๊ณผ์ ์ง๋ ๋ชจ๋ธ์ MATH ํ ์คํธ ์ธํธ์ ๋ํ์ ์ธ ํ์ ์งํฉ์์ 78%์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ๊ฒ๋ค๊ฐ, ์ฐ๋ฆฌ๋ ๋ฅ๋ ํ์ต์ด ๊ณผ์ ์ง๋ ํ์ต์ ํจ๊ณผ๋ฅผ ํฌ๊ฒ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
Jianlin Su’s Blog
์ ๋ Jianlin Su๊ฐ rotary position embedding (RoPE)๋ฅผ ์๊ฐํ ๋ ผ๋ฌธ์ ์ฃผ ์ ์์ธ Su์ ๋ธ๋ก๊ทธ์ธ kexue.fm์ ์ฝ๋ ๊ฒ์ ๊ฐ๋ ฅํ ์ถ์ฒํฉ๋๋ค. ์ ๋ ์๊ฐ ์น์ ๋๋ฌธ์ ์ด ๋ธ๋ก๊ทธ ํฌ์คํธ๊ฐ ์กฐ๊ธ ์ฌ๋ฏธ์๋ค๊ณ ์๊ฐํ์ต๋๋ค.
ๅ่
้่ฟ้ๆบไฝ็ฝฎๆฐๅจๅขๅผบๅฏนไฝ็ฝฎไฟกๅท็้ฒๆฃๆง๏ผ็่ฎบไธๆๅฏ่ฝไฟ็ๅ
จๅฑไพ่ต๏ผไฝ่ฏฅๆนๆณๅช้็จไบEncoderๆจกๅ๏ผไธ้ๅไบGPTไน็ฑป็่ชๅๅฝ็ๆๆจกๅ.
๊ธฐ๊ณ ๋ฒ์ญ: ํ์๋ ์์น ์ ํธ์ ๋ํ ๋๋ค ์์น ์ญ๋์ ํตํด ์์น ์ ํธ์ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํค๋ฉฐ, ์ด๋ก ์ ์ผ๋ก ์ ์ญ ์์กด์ฑ์ ๋ณด์กดํ ์ ์์ง๋ง, ์ด ๋ฐฉ๋ฒ์ ์ธ์ฝ๋ ๋ชจ๋ธ์๋ง ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ GPT์ ๊ฐ์ ์๊ธฐ ํ๊ท ์์ฑ ๋ชจ๋ธ์๋ ์ ํฉํ์ง ์์ต๋๋ค.
1๊ฐ์๋ ์ฑ ๋์ง ์์ ์๊ฐ์ Ruoss ๋ฑ์ด ๋ฌด์์ ์์น ์ธ์ฝ๋ฉ์ ์ ์ํ์ต๋๋ค(RoPE์ ์ ์ฉ ๊ฐ๋ฅ). ๋์ค์ Su๊ฐ ์ด์ ๋ํด ๋ธ๋ก๊ทธ ํฌ์คํธ๋ฅผ ์์ฑํ๊ณ ๊ทธ๋ค์ ์๊ฐ์ ์ ์ํ๊ธฐ๋ฅผ ๋ฐ๋๋๋ค. (2023๋ 6์ 23์ผ ํ์ฌ, ๊ทธ๊ฐ ์ค์ ๋ก ๊ทธ์ ๋ํ ์๋ต์ ์์ฑํ์์ ๋ณด์์ต๋๋ค: https://kexue.fm/archives/9603)
Su 2023์ windowed-attention + RoPE๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ง๋ง, ์ด๋ ์ฒซ ๋ฒ์งธ L-1 ๋ ์ด์ด์๋ง ์ ์ฉ๋ฉ๋๋ค. L๋ฒ์งธ ๋ ์ด์ด๋ ํ์ค "full" attention๊ณผ RoPE๋ฅผ ์ฌ์ฉํ์ง ์์ต๋๋ค(๋ชจ๋ธ์ด ์ธ์ฝ๋ ๊ธธ์ด์์ ํ๋ จ๋์ง ์์๊ธฐ ๋๋ฌธ์) softmax ๊ฐ์ค์น์ log(n) ์ค์ผ์ผ๋ง ์์๊ฐ ์์ต๋๋ค. ๊ฒฐ๊ณผ๋ Hua et al. 2022์ Gated Attention Unit์ ์ฌ์ฉํ์ฌ ์์ฐ๋์์ง๋ง, ์ด๋ค ์ดํ ์ ๋ณํ์ด๋ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ถ๊ฐ๋ก, ์ฐฝ ํฌ๊ธฐ๋ 16์ด๊ณ , ๋ค์๊ณผ ๊ฐ์ ์ฃผ์์ ์ด ์์ต๋๋ค:
๋ง์ฝ Window Attention์ด RoPE๋ฅผ ์ถ๊ฐํ์ง ์์ผ๋ฉด, ๋ณด๊ฐ ๋ฐ ์ธ์ฝ ํจ๊ณผ๊ฐ ๊ฐ์ํฉ๋๋ค.
Full Attention์ RoPE๋ฅผ ์ถ๊ฐํ๋ฉด, ์ธ์ฝ ํจ๊ณผ๊ฐ ๊ฐ์ํฉ๋๋ค.
Full Attention์ด log(n) ์์๋ฅผ ์ฌ์ฉํ์ง ์์ผ๋ฉด, ์ธ์ฝ ํจ๊ณผ๊ฐ ๊ฐ์ํฉ๋๋ค.
Window Attention์ ์์ ํ ์ฌ์ฉํ๋ฉด, ๋ณด๊ฐ ๋ฐ ์ธ์ฝ ํจ๊ณผ๊ฐ ๊ฐ์ํฉ๋๋ค.
Layer Window Attention์ L-2 ๋ ์ด์ด์์ ์ค์งํ๊ณ 2๊ฐ์ Full Attention ๋ ์ด์ด๋ก ๋ณ๊ฒฝํ๋ฉด, ์ธ์ฝ ํจ๊ณผ๊ฐ ๊ฐ์ํฉ๋๋ค.
w=32 (ํ์ฌ (w−1)(L−1)>N), ์ธ์ฝ ํจ๊ณผ๊ฐ ๊ฐ์ํฉ๋๋ค.
๋ํ, Su๋ Hybrid Window Full Attention์ด GAU์์๋ง ํ ์คํธ๋์์์ ์ธ๊ธํ์ง๋ง, ์ ๋ ๊ธฐ๋ก์ ์ํด ์ด๋ค ๊ฒฝ์ฐ์๋ ์ธ๊ธํ๋ ค๊ณ ํฉ๋๋ค. ์ถ๊ฐ์ ์ธ ํ ์คํธ๊ฐ ์ฌ์ ํ ํ์ํฉ๋๋ค.**
Davis Blalock’s Newsletter
๋งค์ฃผ Davis Blalock์ ๊ทธ ์ฃผ์ arXiv ๋ ผ๋ฌธ๋ค์ ๊ฒํ ํ๋ฉฐ, ๊ทธ์ ์์ฝ์ ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ๋ค์ ๊ฐ์กฐํ๋ ๋ฐ ๋งค์ฐ ๋์์ด ๋์์ต๋๋ค. ๋ฌด์์ ์์น ์ธ์ฝ๋ฉ์ ๋ํด ๋ ํ๊ตฌํ๊ธฐ ์ํด ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ฐพ์๋ณด๊ณ ์๋ ๋์ค์ ์ด ์กด์ฌ๋ฅผ ์๊ฒ ๋์์ง๋ง, ํ ๋ฒ ์๊ฒ ๋๋ฉด ๋ ๋ง์ ๋ฏธ๋ฆฌ๋ณด๊ธฐ๋ฅผ ๊ธฐ๋ํ ์ ์์ต๋๋ค.
ReLU over softmax
ReLU ๋ณํ์ ๋ํด์๋ ๋์ผํ ๋ฌธ์ ๊ฐ ์์์ ๊ด์ฐฐํ์ต๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ์๋ ดํ์ง ์์ต๋๋ค. ์ง๊ด์ ํค์ฐ๊ธฐ ์ํด ๋ ผ๋ฌธ์ ๋ ์ฝ์ด๋ณด๋ ๊ฒ์ ๊ถ์ฅํฉ๋๋ค.
๊ทธ๋ฌ๋ ์ฌ๊ธฐ์๋ ์ฌ์ ํ ํ์ฑํ ํจ์ ์ ํ์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. FFN์ ์ผ๋ฐ์ ์ผ๋ก ReLU๋ฅผ ์ฑํํ๊ณ ํค-๊ฐ ๋ฉ๋ชจ๋ฆฌ๋ Softmax๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๋ค๋ฅธ ๋ชจ๋ธ ์ฑ๋ฅ์ ๊ฐ์ ธ์ฌ ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ FFN๊ณผ ํค-๊ฐ ๋ฉ๋ชจ๋ฆฌ ๊ฐ์ ์ฐ๊ฒฐ์ ์ฐ๊ตฌํจ์ผ๋ก์จ ReLU์ Softmax์ ๊ด๊ณ๋ฅผ ํ๊ตฌํฉ๋๋ค.
[...]
์ฐ๋ฆฌ๋ Softmax์์์ ์ง์ ์ ๊ทํ๊ฐ ์ด๋ฌํ ์ด์ ์ผ ๊ฒ์ด๋ผ ์ถ์ธกํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Softmax๋ ์์๋ค์ ์ง์ ์ ๊ทํ๋ฅผ ์ ๊ณตํ๋ฉฐ ReLU๋ ๊ทธ๋ ์ง ์๊ธฐ ๋๋ฌธ์, Softmax๋ ์์๋ค์ ๋ํด ๊ณผ๋ํ ์ง์ค๋ ๋ถํฌ๋ฅผ ์ ๊ณตํ๊ฒ ๋๋๋ฐ, ์ด๋ ๋ช ๊ฐ์ ์์๋ง ๊ฐ์กฐ๋๊ณ ๋๋ถ๋ถ์ ๊ฐ์ค์น๋ฅผ ์ฐจ์งํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ๋ฉ๋ชจ๋ฆฌ ํฌ๊ธฐ๊ฐ ํฐ ๊ฒฝ์ฐ, Softmax๋ ๋๋ถ๋ถ์ ๊ฐ์ ๋ฌด์ํ๊ณ ์ผ๋ถ ๊ฐ๋ง ์ฌ์ฉํ๊ฒ ๋๋๋ฐ, ์ด๋ ๋ฉ๋ชจ๋ฆฌ์ ํฌ๊ธฐ๊ฐ ํฌ๊ฒ ์ด์ ์ ์ด๋ฆฌ์ง ๋ชปํฉ๋๋ค. ๋ฐ๋ฉด, ReLU์์๋ ์์๋ค ๊ฐ์ ๊ฒฝ์์ด ์๊ธฐ ๋๋ฌธ์ ๋ ๋ง์ ์ง์์ ํตํฉํ ์ ์์ต๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํ ์ง๊ด์ ์ธ ๋ฐฉ๋ฒ์ Softmax์ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ํํํ๊ฒ ๋ง๋ค๊ธฐ ์ํด ์จ๋๋ฅผ ๋์ด๋ ๊ฒ์ ๋๋ค. ํ์ง๋ง ์ฐ๋ฆฌ๋ ์คํ์์ ๊ทธ๊ฒ์ด ๊ฑฐ์ ํจ๊ณผ๊ฐ ์์์ ๊ฒฝํ์ ์ผ๋ก ๋ฐ๊ฒฌํ์ต๋๋ค.
XPos์ ๊ฐ์ ๋ ์ ๋ฐํ๋ Sandwich!
† ๋๋ ๋ด ๋ฌธ๋งฅ์ ์๋ฏธํ๊ณ , ๊ทธ ๋ถ๋ถ์ ์ค์ ๋ก๋ ๋น๊ต์ ์ฌ์ ์ต๋๋ค.
*๋๋ฅผ Su์ ํฌ์ด๋ผ๊ณ ๋ถ๋ฅด์ธ์, ์ ๊ฒฝ ์ ์จ์ :)
Citations
์ ๋ฐ์ดํธ: 2023๋ 6์ 25์ผ
๋ช ์์ ์ธ ์ธ์ฉ ์น์ ์ ์ถ๊ฐํ์ง ์์์ง๋ง, ๋ด๊ฐ ์ฐ์ฐํ ๋ฐ๊ฒฌํ ์ํฅ๋ ฅ ์๋ ๋ ผ๋ฌธ๋ค๊ณผ ๊ด๋ จ์ฑ์ ์ ๊ณตํ๊ธฐ ์ํด ์ฌ๊ธฐ์ ์ธ์ฉ๋ฌธ์ ์ ๊ณตํฉ๋๋ค. ๋ชจ๋ ๋ฐ์ด๋ ์ฐ๊ตฌ์๋ค์๊ฒ ๊ฐ์ฌ๋๋ฆฝ๋๋ค. ๋ค์ํ ํต์ฐฐ๋ ฅ์ด ์์๋ค๋ฉด ์ด๊ฒ์ ๊ฐ๋ฅํ์ง ์์์ ๊ฒ์ ๋๋ค :)
์ฌ๊ธฐ์ ์ธ๊ธํ์ง ์์ ๊ด๋ จ ์์ ์ด ์๋ค๋ฉด, ๋ ผ๋ฌธ์ ๋งํฌ์ ๊ทธ์ ๊ด๋ จ์ฑ์ kaiokendev1@gmail.com์ผ๋ก ๋ณด๋ด์ฃผ์๋ฉด ๊ธฐ์๊ฒ ์ถ๊ฐํ ๊ฒ์ ๋๋ค. ๋ชจ๋ ์ฃผ์ ์ ๋ ผ๋ฌธ์ ์ฝ์ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๊ณ , ์ด ํด๊ฒฐ์ฑ ์ ์์ ์ ํ์ ์ํฅ์ ๋ฐ์๊ธฐ ๋๋ฌธ์ ์ํดํด ์ฃผ์ธ์.
The Problem of Length Generalization
์ด ์น์ ์ Transformer ๋ชจ๋ธ์ด ๊ธธ์ด ์ธ์ฝ์ ์ ์ํํ์ง ๋ชปํ๋ ๋ฌธ์ ์ ๊ด๋ จ๋ ๋ ผ๋ฌธ๋ค์ ์ธ์ฉํฉ๋๋ค.
Anil et al. 2022๋ ์ผ๋ฐ์ ์ธ ๊ธธ์ด ์ผ๋ฐํ ๋ณํ์ฆ์์ ํด๊ฒฐํ์ง ๋ชปํ๋ ๋ช ๊ฐ์ง ์ธ๋ถ ์กฐ์ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ค์ ํฌํจ๋ ๋ฌธ์ ์ ์ฌ๋ฌ ๋ฐฉ์์ ์ฐ๊ตฌํ๊ณ ๊ฒฐ์ ํฉ๋๋ค.
Chi et al. 2022๋ ALiBi๋ฅผ ๋ถ์ํ๊ณ , ๋ชจ๋ธ์ ์์ฉ ์์ญ์ ์ ํํจ์ผ๋ก์จ ์ป์ ์ด์ ์ ๊ฐ์กฐํ๋ ์๋์ฐ ์ดํ ์ ๊ณผ์ ๊ด๋ จ์ฑ์ ์ฐพ์์ต๋๋ค. ๊ทธ๋ค์ ์ด๋ฌํ ํ์ต์ ํ์ฉํ์ฌ SANDWICH๋ฅผ ๋ง๋ค์์ต๋๋ค.
Tao et al. 2023์ ๋ท๋ถ๋ถ ์์น ์๋ฒ ๋ฉ์ด ์๋ถ๋ถ ์์น ์๋ฒ ๋ฉ๋ณด๋ค ๋ ์์ฃผ ์ ๋ฐ์ดํธ๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ๊ทธ๋ค์ BERT ๋ชจ๋ธ์ ๊ธธ์ด ์ผ๋ฐํ๋ฅผ ํฅ์์ํค๊ธฐ ์ํด ์ํ์ค์ ์ฌ๋ฌ ํจ์น์ ๋ฌด์์ ํจ๋ฉ์ ์ถ๊ฐํ๋ ๊ฒ์ ์ ์ํฉ๋๋ค.
Press et al. 2021์ Transformer ๋ชจ๋ธ์ด RoPE์ ํจ๊ป ํ๋ จ ์ค์ ๋ณธ ์์น ์๋ฒ ๋ฉ์ ๊ณผ์ ํฉ๋ ์ ์๋ค๊ณ ์ ์ํฉ๋๋ค. ๊ทธ๋ค์ ALiBi๋ฅผ ์ ์ํ์ฌ QK ์ ๊ณฑ์ ๊ฐ์ ํ ํฐ ํธํฅ์ ์ถ๊ฐํ์ฌ ์ฅ๊ฑฐ๋ฆฌ ์ํ์ค์ ์ธ์ฝ์ ๋์์ด ๋๋ ๊ณ ์ ๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ถ๊ฐํฉ๋๋ค.
Liu et al. 2023์ ๋ํ ์ธ์ด ๋ชจ๋ธ์ด ์ฅ๊ฑฐ๋ฆฌ ์ธ์ด ๋ชจ๋ธ๋ง ์์ ์์ ์น๋ช ์ ์ธ ๊ฒฐํจ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค. ๊ทธ๋ค์ ์์ฒ ๊ฐ์ ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ์คํํ์ต๋๋ค. ๊ทธ๋ค์ด ์ธ๊ธํ ์ ์ฌ์ ์ธ ์์ธ ์ค ํ๋๋ ์ ์์ค ์ดํ ์ ํค๋ ๋ก์ง์ ์๋ํ ๋ณ๋์ ๋๋ค.
Length Generalization Solutions
๋ค์ ์น์ ์ ๊ธธ์ด ์ผ๋ฐํ์ ๋ํ ํด๊ฒฐ์ฑ ์ ์ ์ํ๋ ๋ ผ๋ฌธ์ ์ธ์ฉํฉ๋๋ค.
Chi et al. 2022๋ ์์ ์น์ ์์ ์ธ์ฉ๋์์ต๋๋ค.
Tao et al. 2023์ ์์ ์น์ ์์ ์ธ์ฉ๋์์ต๋๋ค.
Press et al. 2021์ ์์ ์น์ ์์ ์ธ์ฉ๋์์ต๋๋ค.
Bueno et al. 2022๋ ๋งํฌ์ ํ ํฐ์ ์ถ๊ฐํจ์ผ๋ก์จ ๋ชจ๋ธ์ด ๊ธด ์ํ์ค์์ ์์ ์ ์ฌ๊ณ ๊ณผ์ ์ ์ถ์ ํ ์ ์๋๋ก ๋์์ฃผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
Mohtashami et al. 2023์ ๋๋๋งํฌ ํ ํฐ, ์์ ๋ ๊ทธ๋ฃจํ๋ ์ํํธ๋งฅ์ค ์ดํ ์ ๋ฐ ์์น ์ ํ๋ฅผ ์ฌ์ฉํ์ฌ LLaMa ๋ชจ๋ธ์ 32,000๊ฐ์ ํ ํฐ์ผ๋ก ์ธ๋ฐํ๊ฒ ์กฐ์ ํฉ๋๋ค.
Permutated Positional Embeddings
์ด ์น์ ์ ์์น ์๋ฒ ๋ฉ์ ์ด๋ํ๊ฑฐ๋ ์ ์นํ๋ ๊ธฐ์ ์ ํ์ฉํ์ฌ ๊ธธ์ด ์ถ๋ก ์ ๋ฌ์ฑํ๋ ๋ ผ๋ฌธ์ ์ธ์ฉํฉ๋๋ค.
Ruoss et al. 2023์ ์์์ ์์ฐจ์ ์ธ ์ํ์ค(ํ์์ ์ผ๋ก ์ฐ์๋์ง ์์)์ ์์น ID๋ฅผ ์ฌํ ๋นํ์ฌ ์ค์ ์ํ์ค ๊ธธ์ด๋ณด๋ค ๊ธด ํ๋ จ ์ํ์ค๋ฅผ ๋ชจ๋ฐฉํ๋ ๋๋ค ์์น ์ธ์ฝ๋ฉ์ ์ ์ํฉ๋๋ค.
Likhomanenko et al. 2021์ CAPE(์ฐ์ ์ฆ๊ฐ๋ ์์น ์๋ฒ ๋ฉ)์ ์ ์ํ์ฌ ์ ๋ ์์น ์๋ฒ ๋ฉ์ ์์์ ์ ์ญ ์คํ์ ๊ณผ ์ค์ผ์ผ ๋ฐ ์ง์ญ ์คํ์ ์ ์ ์ฉํ์ฌ ์๋์ ์ธ ์ ๋ณด๋ฅผ ๋ชจ๋ธ์ ๊ฐ๋ฅด์น๋ ๊ฒ์ ์ ์ํฉ๋๋ค.
Kiyono et al. 2021์ SHAPE(์ด๋๋ ์ ๋ ์์น ์๋ฒ ๋ฉ)์ ์ ์ํ์ฌ ํ๋ จ ์ค์ ์์น๋ฅผ ์์๋ก ์ด๋ํ์ฌ ์์น์ ๋ํ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ณ ์๋์ ์ธ ์ ๋ณด์ ํ์ต์ ์ด์งํฉ๋๋ค.
Attention Calculations
๋ค์ ๋ ผ๋ฌธ๋ค์ ์ดํ ์ ๊ณ์ฐ์ ๋ณ๊ฒฝํจ์ผ๋ก์จ ๊ธธ์ด ์ถ๋ก ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํด ๋ค๋ฃน๋๋ค.
Chiang and Cholak 2022๋ ์ํํธ๋งฅ์ค ์ดํ ์ ๋ก์ง์ log(n)์ผ๋ก ์ค์ผ์ผ๋งํจ์ผ๋ก์จ FIRST ์์ ์์ ๋ ๋์ ์ถ๋ก ์ ๋ฌ์ฑํ๋ค๊ณ ์ธ๊ธํฉ๋๋ค.
Shen et al. 2023์ ์ํํธ๋งฅ์ค ๋์ ReLU๋ฅผ ์ฌ์ฉํ์ฌ ํฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ํค-๊ฐ์ด ๋ง์ ๊ฒฝ์ฐ ๋ ๋์ ๋ถ์ฐ์ ์ ๊ณตํ๋ ๊ฒ์ ์ ์ํฉ๋๋ค.
'๐ฃ๏ธ Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
The Path to Achieve Ultra-Low Inference Latency With LLaMA 65B on PyTorch/XLA (0) | 2023.07.06 |
---|---|
Textbooks Are All You Need (0) | 2023.07.02 |
Text Embedding + t-SNE Visualization (0) | 2023.06.22 |
[Langchain] paper-translator (0) | 2023.06.16 |
LIMA : Less is More for Alignment (0) | 2023.06.13 |