The Path to Achieve Ultra-Low Inference Latency With LLaMA 65B on PyTorch/XLA
ยท
๐ฃ๏ธ Natural Language Processing
BACKGROUND & STATE OF THE ART ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์ญ์์ ์ธ์ด ๋ชจ๋ธ์ ๊ณผ๊ฑฐ ์
๋ ฅ ํ ํฐ์ ์ํ์ค๋ฅผ ์ฌ์ฉํ์ฌ ํ ํฐ(์: ๋จ์ด)์ ์์ฑํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋์ฉ๋ ์ธ์ด ๋ชจ๋ธ(Large Language Models, LLMs)์ ์ด ๊ณต๊ฐ์์์ ์ต์ ๋ฅ๋ฌ๋ ํ์ ์ผ๋ก, ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ํ
์คํธ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ค๊ณ๋์์ต๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ์
๋ ฅ ํ ํฐ์ ํฐ ์ํ์ค์ ๋ํ ์ฃผ์๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด transformer๋ฅผ ์ฌ์ฉํฉ๋๋ค. LLaMA๋ 1์กฐ ๊ฐ ์ด์์ ํ ํฐ์ผ๋ก ํ๋ จ๋ ๊ฐ๋ ฅํ ๊ธฐ๋ฐ LLM์ผ๋ก, Meta AI์์ ์คํ ์์ค๋ก ์ ๊ณต๋ฉ๋๋ค. LLaMA๋ GPT-3, Chinchilla, PaLM๊ณผ ๊ฐ์ ๋ง์ ์ต๊ณ ์ ๋ชจ๋ธ๊ณผ ๊ฒฝ์๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. LLaMA (13B)๋ GPT..