Model Memory Calculator, GPU ์ผ๋ง๋ฉด ๋๋?
llama3, gemma2, florence ๋ฑ llama1(2023.2.24)์ด ๋์จ ์ง ๋ฒ์จ 1๋ ์ด ๋์ด๊ฐ๋๋ฐ ์์ง ์คํ llm์ ์ธ๊ธฐ๋ ์์ ์ค ๋ชจ๋ฅด๊ณ ์๋ค. ์๋ ๋ ์ธ๊ธฐ๊ฐ ๋๊ณ ์๋ค. ํ์ต ํ์ดํ๋ผ์ธ์ ๋์ฑ ์ฝ๊ณ ๊ฒฌ๊ณ ํด์ง๊ณ ๋ชจ๋ธ inference๋ ๋์ฑ ๋ฆฌ์์ค ์๋ ๋ค ๋ฐ๋ฌํ๊ณ ์๋ค. ๊ทธ๋ฐ๊ณ ๋ก ๋์ ๋ฆฌ์์ค์ ๋ง๋ ๋ชจ๋ธ์ ๋ฌด์์ด๊ณ ์ต๋์น๋ก ๋๋ฆด ์ ์๋ ๊ฒ๋ค์ด ๊ถ๊ธํ ๊ฒ์ด๋ค.
๋จผ์ 2b, 7b, 9b์ด ์ซ์์ ๋ํด ๊ฐ๋จํ ์ค๋ช ํ๋ฉด ๋ชจ๋ธ์ด ํ์ตํ parameter์ ์์ด๋ค. ๊ฐ๋จํ ์ด์ผ๊ธฐํ๋ฉด ๋ชจ๋ธ์ด ํํํ ์์๋ ๊ฒฝ์ฐ์ ์๊ฐ ์ด๋งํผ ๋ง๋ค๋ ๊ฒ์ด๋ค. ๊ณผ๊ฑฐ BERT ๋ชจ๋ธ์ ๋จ์๊ฐ 3M, 5M ๋ฐฑ๋ง ๋จ์๋ผ๋ฉด ์ง๊ธ์ ์์ญ์ต ๋จ์๋ก ๋์ด์๋ค. ์ด๋ ๊ฒ ๋์ด ๋จ์ ๋ฐ๋ผ ์๊ตฌ๋๋ GPU์ ํฌ๊ธฐ ๋ํ ์ฆ๊ฐํ๋ค. ํฌ๋ง์ ์ธ ์์์ gguf๋ก ํ์ต๋ ๋ชจ๋ธ์ ๋ฉํ๋ฐ์ดํฐ๋ก ๋ณํ์์ผ ์ถ๋ก ํ์ ์ ํฌ๊ธฐ์ ์๋๋ฅผ ๊ฐ์ ์์ผฐ๋ค. ์ฒ์ gguf๋ ์๋ชจ๋ธ๊ณผ ๋ค๋ฅด๊ฒ ์ฑ๋ฅ์ ๋ณด์ฅ ๋ชปํ์ง๋ง ์ด ๋ํ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด์ ์ปค๋ฒ ๊ฐ๋ฅํ๊ณ safetensor๋ก ๋ ์์ ์ ์ด๊ฒ inference ํ๊ฒฝ์ ๊ตฌ์ถํ ์ ์๊ฒ ๋์๋ค. ์ด์ ์ ์๊ฐํ Ollama์์ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ด ๋ค gguf ๋ชจ๋ธ์ด๋ค.
https://bnmy6581.tistory.com/334
ํ๊น ํ์ด์ค ๋ชจ๋ธ ์ฌ์ด์ฆ ๊ณ์ฐ๊ธฐ
ํ๊น ํ์ด์ค ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉด gguf๊ฐ ์๋ ์ ๋ชจ๋ธ์ ํ์ตํ๋๋ฐ ํ์ํ ์ต์ GPU์ ํ์ตํ๋๋ฐ ํ์ํ GRAM์ ๊ณ์ฐ ํ ์ ์๋ค. ๋ชจ๋ธ ์ด๋ฆ๊ณผ ๋ฒ์ ์ ์ ๋ ฅํ๋ฉด ๊ณ์ฐ์ด ๋๋ค. (gemma2๋ ๊ตฌ๊ธ ๋์๊ฐ ํ์ํด ์ฌ์ฉ์ ํ์ต ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. ์ฌ์ด์ฆ ๋์ผ)
์ ํ๋ฅผ ๋ณด๋ฉด ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ค๋ฉด ์ต์ 9.34G์ GPU RAM์ด ํ์ํ๋ค. ๊ฐ์ฅ ์์ ์ ์ธ ํ์ต ํ๊ฒฝ์ ๊ฒฝ์ฐ ์ต๋์น๋ก ๋ณด๊ณ ๊ฒฐ์ ํ๋ฉด ๋์ง๋ง ํ์ตํด์ผ ํ ๋ฐ์ดํฐ๊ฐ ๋ง๋ค๋ฉด ํ์ ์ ๋ฎ์ถ๊ณ ๋ ํฐ ํ๋ผ๋ฏธํฐ์ ๋ชจ๋ธ์ ์ ํํ๋ฉด ๋๋ค. ์๋ฅผ ๋ค๋ฉด 24GB์ GPU๊ฐ ์๋ค๋ฉด float16์ผ๋ก 2B๋ชจ๋ธ์ ํ์ต์ํค๋ฉด ๋๋ค. ๋ชจ๋ธ์ด ์์์๋ก (2b, 4b) gguf์ ์ฑ๋ฅ๋ ๋ง์ด ๋ฎ์ ์ ๋ชจ๋ธ์ ์ฑํํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
gguf ๋ชจ๋ธ์ ๊ฒฝ์ฐ 2b -> 1.14g, 14b -> 7.9g ์ ๋ฐ์ผ๋ก ๋ชจ๋ธ ์ฌ์ฉ ๋ฆฌ์์ค๊ฐ ์ค์ด ์ฌ์ฉ๋งํ๋๋ฐ๋ gguf๊ฐ ์ ๋นํ๋ค. ํ๊ตญ์ด ๋ชจ๋ธ๋ ์ต๊ทผ ๋ง์ ์ฌ๋๋ค์ด ggufํํด์ ๋ชจ๋ธ์ ๊ณต๊ฐํด ๊ฐ์ ธ๋ค ์ฌ์ฉํ ์ ์๋ค. ์์ ๋ง์ LLM์ ๋ง๋ค์ด ๋ณด๋ ๊ฒ๋ ์ถ์ฒํ๋ค! ์ง๊ธ์ด ๊ทธ๋๋ง ํ์ตํ ์ ์๋ ํฌ๊ธฐ์ ๋ชจ๋ธ์ด์ง ๋์ค์๋ ๋ฐ๋ผ๊ฐ ์ ์กฐ์ฐจ ์๋ ๋ชจ๋ธ๋ค์ด ์ฃผ๋ฅผ ์ด๋ฃฐ ๊ฒ์ด๋ค.