“대한민국 법률 전문”을 가지고 OpenAI(ChatGPT), GOOGLE(Gemini), Antropic(Claude), Upstage(Solar)를 대상으로 embedding 후 token 수를 비교하는 실험을 진행
Goal : API로 제공되는 LLM 중 어떤 모델이 한국어 token을 가장 적게 사용하고 비용 저렴한지 비교
- Input Text(대한민국헌법 전문, text length=373)
유구한 역사와 전통에 빛나는 우리들 대한국민은 기미 삼일운동으로 대한민국을
건립하여 세계에 선포한 위대한 독립정신을 계승하여 이제 민주독립국가를 재건함에 있어서
정의인도와 동포애로써 민족의 단결을 공고히 하며 모든 사회적 폐습을 타파하고 민주주의제제도를
수립하여 정치, 경제, 사회, 문화의 모든 영역에 있어서 각인의 기회를 균등히 하고 능력을
최고도로 발휘케 하며 각인의 책임과 의무를 완수케하여 안으로는 국민생활의 균등한 향상을 기하고
밖으로는 항구적인 국제평화의 유지에 노력하여 우리들과 우리들의 자손의 안전과 자유와 행복을 영원히
확보할 것을 결의하고 우리들의 정당 또 자유로히 선거된 대표로써 구성된 국회에서 단기 4281년 7월 12일
이 헌법을 제정한다.
1) OpenAI
- Embedding API 비용
MODEL | ~ PAGES PER DOLLAR | PERFORMANCE ON MTEB EVAL | MAX INPUT | Usage |
text-embedding-3-small | 62,500 | 62.3% | 8191 | $0.02 / 1M tokens |
text-embedding-3-large | 9,615 | 64.6% | 8191 | $0.13 / 1M tokens |
text-embedding-ada-002 | 12,500 | 61.0% | 8191 | $0.10 / 1M tokens |
- Model 별 Tokenizer(tiktoken)
Encoding name | OpenAI models |
cl100k_base | gpt-4, gpt-3.5-turbo, text-embedding-ada-002, text-embedding-3-small, text-embedding-3-large |
p50k_base | Codex models, text-davinci-002, text-davinci-003 |
r50k_base (or gpt2) | GPT-3 models like davinci |
- Result (373 → 396, 815)
- Embedding Token
- Origin Text : 373 Embed Text(cl100k_base) : 396 Embed Text(r50k_base) : 815 Embed Text(p50k_base) : 815
- Price
- text-embedding-3-small - 0.02 * 1300/1000000*(396)=0.10296₩
- text-embedding-3-large - 0.13 * 1300/1000000*(396)=0.67524₩
- ada v2 - 0.10 * 1300/1000000*(396)=0.5268₩
Eval benchmark | ada v2 | text-embedding-3-small | text-embedding-3-large |
MIRACL average | 31.4 | 44.0 | 54.9 |
MTEB average | 61.0 | 62.3 | 64.6 |
Test Embedding token count | 396 | 396 | 396 |
OpenAI의 임베딩 모델의 밴치마크를 보면 text-embedding-3-small 모델의 비용이 가장 적고 합리적인 것을 볼 수 있다. 밴치마크가 한국어 데이터셋이 얼마나 포함되고 한국어 ebedding 성능은 얼마나 유효한지 알 수 없으나 ada-v2의 한국어 ebedding model의 성능이 현존 최강임(24/3/28)을 감안하면 small model의 성능은 더 좋을 것으로 예상된다.
2) Gemini-Pro
- Embedding API 비용 (cloud.google.docs, 현재 무료 / 출시 예정)
- $0.0002 / 1000 string
- Result(373→262)
- GeminiPro text-embedding-ada-002 korean encoding
- Origin Text : 373
- Embed Text(normal) : 262
- Embed Text(normalize) : 262
- Price
- $0.000125 / 1K characters
- $0.0025 / image
- 0.000125 * 1300 / 1000 = 0.000162₩
- GeminiPro text-embedding-ada-002 korean encoding
- Embedding Token
openai의 토큰 수 보다 훨씬 적은 수의 한국어 토큰을 사용하면서 가격 또한 저렴한 것을 알 수 있다. 다만 gemini-pro의 경우 embedding 성능이 공개되지 않았거나(?) leaderboard 순위권 밖인 것으로 보아 가격이 합리적인지는 알 수 없다.
3) Claude
- Embedding API 비용
Model | Price per thousand tokens | Price per million tokens | Number of free tokens |
voyage-2 | $0.0001 | $0.1 | 50 million |
voyage-large-2 | $0.00012 | $0.12 | 50 million |
voyage-code-2 | $0.00012 | $0.12 | 50 million |
- Result (373→543)
- Origin Text : 373
- Embed Text(voyage-2) : 543
- Embed Normalize Text(voyage-2) : 543
- Embed Text(voyage-large-2) : 543
- Embed Normalize Text(voyage-large-2): 543
- Embed Text(voyage-2) : 0.0000014118₩
- Embed Text(voyage-large-2) : 0.0000016942₩
- Anthropic Voyage-2 korean embedding
Anthropic의 Embedding model의 성능은 공개된 리더보드에 의하면 2위에 위치해 있다. 한국어 토 큰 수가 증가한 것으로 보아 한국어 임베딩에는 연산이 조금 더 들어간다. 하지만 가격이 말이 안 될 정도로 저렴하고 초창기 GPT-4의 한국어 모델 성능을 능가? 비슷한 정도로 사람들의 평이 있어 추천한다.
4) Solar
- Result (373→190, 172)
- Origin Text : 373
- Embed Text(solar-1-mini-query) : 190
- Embed Text(solar-1-mini-passage) : 172
- Free (현재 무료, 가격 정책 업데이트 X)
- OpenAI Solar-1-mini korean embedding
Upstage 한국 기업답게 Token 수가 반이나 줄어든 모습을 볼 수 있다. Solar 모델의 성능 혹은 한국어 다른 모델의 성능이 높아질수록 추론 속도나 Output으로 나오는 길이에도 영향을 주기 때문에 한국어 domain 모델의 발전은 필수
정리
Company | Embedding Model | Price | Token Count(373) | Official Price |
OpenAI | text-embedding-3-small | 0.10296₩ | 396(+6%) | $0.02 / 1M tokens |
OpenAI | text-embedding-3-large | 0.67524₩ | 396(+6%) | $0.13 / 1M tokens |
OpenAI | ada-v2 | 0.5268₩ | 396(+6%) | $0.10 / 1M tokens |
Gemini-PRO | gemini-pro | 0.0425749₩ | 262(-30%) | $0.000125 / 1K characters |
Claude 3 | voyage-2 | 0.0000014118₩ | 543(+45%) | $0.0001 / 50M tokens |
Claude 3 | voyage-large-2 | 0.00000169416₩ | 543(+45%) | $0.00012 / 50M tokens |
Solar | solar-1-mini-query | - | 190(-50%) | Free |
Solar | solar-1-mini-passage | - | 172(-54%) | Free |
OpenAI text-embedding-3-small의 값을 1000원으로 환산 했을 때
Google의 Embedding model은 413원
Anthropic의 Voyage-2는 0.0137원
으로 Voyage-2이 비교가 안될 정도로 가격이 저렴하다.
성능은 이 이 후에 수능 국어 지문을 통해 측정할 예정이다.