728x90

Model Memory Calculator, GPU ์–ผ๋งˆ๋ฉด ๋˜๋‹ˆ?

 

 llama3, gemma2, florence ๋“ฑ llama1(2023.2.24)์ด ๋‚˜์˜จ ์ง€ ๋ฒŒ์จ 1๋…„์ด ๋„˜์–ด๊ฐ€๋Š”๋ฐ ์•„์ง ์˜คํ”ˆ llm์˜ ์ธ๊ธฐ๋Š” ์‹์„ ์ค„ ๋ชจ๋ฅด๊ณ  ์žˆ๋‹ค. ์•„๋‹ˆ ๋” ์ธ๊ธฐ๊ฐ€ ๋Š˜๊ณ  ์žˆ๋‹ค. ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์€ ๋”์šฑ ์‰ฝ๊ณ  ๊ฒฌ๊ณ ํ•ด์ง€๊ณ  ๋ชจ๋ธ inference๋Š” ๋”์šฑ ๋ฆฌ์†Œ์Šค ์†๋„ ๋‹ค ๋ฐœ๋‹ฌํ•˜๊ณ  ์žˆ๋‹ค. ๊ทธ๋Ÿฐ๊ณ ๋กœ ๋‚˜์˜ ๋ฆฌ์†Œ์Šค์— ๋งž๋Š” ๋ชจ๋ธ์€ ๋ฌด์—‡์ด๊ณ  ์ตœ๋Œ€์น˜๋กœ ๋Œ๋ฆด ์ˆ˜ ์žˆ๋Š” ๊ฒƒ๋“ค์ด ๊ถ๊ธˆํ•  ๊ฒƒ์ด๋‹ค.

 

 ๋จผ์ € 2b, 7b, 9b์ด ์ˆซ์ž์— ๋Œ€ํ•ด ๊ฐ„๋‹จํžˆ ์„ค๋ช…ํ•˜๋ฉด ๋ชจ๋ธ์ด ํ•™์Šตํ•œ parameter์˜ ์ˆ˜์ด๋‹ค. ๊ฐ„๋‹จํžˆ ์ด์•ผ๊ธฐํ•˜๋ฉด ๋ชจ๋ธ์ด ํ‘œํ˜„ํ•  ์ˆ˜์žˆ๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜๊ฐ€ ์ด๋งŒํผ ๋งŽ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ณผ๊ฑฐ BERT ๋ชจ๋ธ์˜ ๋‹จ์œ„๊ฐ€ 3M, 5M ๋ฐฑ๋งŒ ๋‹จ์œ„๋ผ๋ฉด ์ง€๊ธˆ์€ ์ˆ˜์‹ญ์–ต ๋‹จ์œ„๋กœ ๋„˜์–ด์™”๋‹ค. ์ด๋ ‡๊ฒŒ ๋Š˜์–ด ๋‚จ์— ๋”ฐ๋ผ ์š”๊ตฌ๋˜๋Š” GPU์˜ ํฌ๊ธฐ ๋˜ํ•œ ์ฆ๊ฐ€ํ–ˆ๋‹ค. ํฌ๋ง์ ์ธ ์†Œ์‹์€ gguf๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜์‹œ์ผœ ์ถ”๋ก  ํƒ€์ž…์˜ ํฌ๊ธฐ์™€ ์†๋„๋ฅผ ๊ฐœ์„ ์‹œ์ผฐ๋‹ค. ์ฒ˜์Œ gguf๋Š” ์›๋ชจ๋ธ๊ณผ ๋‹ค๋ฅด๊ฒŒ ์„ฑ๋Šฅ์„ ๋ณด์žฅ ๋ชปํ–ˆ์ง€๋งŒ ์ด ๋˜ํ•œ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด์„œ ์ปค๋ฒ„ ๊ฐ€๋Šฅํ•˜๊ณ  safetensor๋กœ ๋” ์•ˆ์ •์ ์ด๊ฒŒ inference ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค. ์ด์ „์— ์†Œ๊ฐœํ•œ Ollama์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋ธ์ด ๋‹ค gguf ๋ชจ๋ธ์ด๋‹ค. 

https://bnmy6581.tistory.com/334

 

[Ollama] Response Structure Answer

Ollama + Langchain Local llm์˜ ์„ฑ๋Šฅ์ด ๋‚˜๋‚ ์ด ์ข‹์•„์ง€๋ฉฐ ์ด์ œ๋Š” 8b์ด์ƒ์˜ ๋ชจ๋ธ ์ •๋„๋ฉด ํ•œ๊ตญ์–ด instruction์ด ์ž˜๋˜์–ด CoT๋ฅผ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค. ๊ฐ„๋‹จํ•œ ์˜ˆ์ œ๋ฅผ ํ†ตํ•ด ์ด๋ฆฌ๋กœ ์ €๋ฆฌ๋กœ ํŠ€๋˜ LLM์„ ์–ด๋–ป๊ฒŒ ์ œ์–ดํ•˜๋Š”

bnmy6581.tistory.com

 

 

ํ—ˆ๊น… ํŽ˜์ด์Šค ๋ชจ๋ธ ์‚ฌ์ด์ฆˆ ๊ณ„์‚ฐ๊ธฐ 

 

Huggingface model calculator

 

 

 ํ—ˆ๊น… ํŽ˜์ด์Šค ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ฉด gguf๊ฐ€ ์•„๋‹Œ ์› ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š”๋ฐ ํ•„์š”ํ•œ ์ตœ์†Œ GPU์™€ ํ•™์Šตํ•˜๋Š”๋ฐ ํ•„์š”ํ•œ GRAM์„ ๊ณ„์‚ฐ ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ชจ๋ธ ์ด๋ฆ„๊ณผ ๋ฒ„์ „์„ ์ž…๋ ฅํ•˜๋ฉด ๊ณ„์‚ฐ์ด ๋œ๋‹ค.  (gemma2๋Š” ๊ตฌ๊ธ€ ๋™์˜๊ฐ€ ํ•„์š”ํ•ด ์‚ฌ์šฉ์ž ํ•™์Šต ๋ชจ๋ธ์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ์‚ฌ์ด์ฆˆ ๋™์ผ)

 

 

Usage Inference

 ์œ„ ํ‘œ๋ฅผ ๋ณด๋ฉด ์› ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ ค๋ฉด ์ตœ์†Œ 9.34G์˜ GPU RAM์ด ํ•„์š”ํ•˜๋‹ค. ๊ฐ€์žฅ ์•ˆ์ •์ ์ธ ํ•™์Šต ํ™˜๊ฒฝ์˜ ๊ฒฝ์šฐ ์ตœ๋Œ€์น˜๋กœ ๋ณด๊ณ  ๊ฒฐ์ •ํ•˜๋ฉด ๋˜์ง€๋งŒ ํ•™์Šตํ•ด์•ผ ํ•  ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ๋‹ค๋ฉด ํƒ€์ž…์„ ๋‚ฎ์ถ”๊ณ  ๋” ํฐ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋ชจ๋ธ์„ ์„ ํƒํ•˜๋ฉด ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด 24GB์˜ GPU๊ฐ€ ์žˆ๋‹ค๋ฉด float16์œผ๋กœ 2B๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋ฉด ๋œ๋‹ค. ๋ชจ๋ธ์ด ์ž‘์„์ˆ˜๋ก (2b, 4b) gguf์˜ ์„ฑ๋Šฅ๋„ ๋งŽ์ด ๋‚ฎ์•„ ์› ๋ชจ๋ธ์„ ์ฑ„ํƒํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.

 

 gguf ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ 2b -> 1.14g, 14b -> 7.9g ์ ˆ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ ์‚ฌ์šฉ ๋ฆฌ์†Œ์Šค๊ฐ€ ์ค„์–ด ์‚ฌ์šฉ๋งŒํ•˜๋Š”๋ฐ๋Š” gguf๊ฐ€ ์ ๋‹นํ•˜๋‹ค. ํ•œ๊ตญ์–ด ๋ชจ๋ธ๋„ ์ตœ๊ทผ ๋งŽ์€ ์‚ฌ๋žŒ๋“ค์ด ggufํ™”ํ•ด์„œ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•ด ๊ฐ€์ ธ๋‹ค ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์ž์‹ ๋งŒ์˜ LLM์„ ๋งŒ๋“ค์–ด ๋ณด๋Š” ๊ฒƒ๋„ ์ถ”์ฒœํ•œ๋‹ค! ์ง€๊ธˆ์ด ๊ทธ๋‚˜๋งˆ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ํฌ๊ธฐ์˜ ๋ชจ๋ธ์ด์ง€ ๋‚˜์ค‘์—๋Š” ๋”ฐ๋ผ๊ฐˆ ์ˆ˜ ์กฐ์ฐจ ์—†๋Š” ๋ชจ๋ธ๋“ค์ด ์ฃผ๋ฅผ ์ด๋ฃฐ ๊ฒƒ์ด๋‹ค. 

๋ฐ˜์‘ํ˜•
๋‹คํ–ˆ๋‹ค