embedding

“대한민국 법률 전문”을 가지고 OpenAI(ChatGPT), GOOGLE(Gemini), Antropic(Claude), Upstage(Solar)를 대상으로 embedding 후 token 수를 비교하는 실험을 진행 Goal : API로 제공되는 LLM 중 어떤 모델이 한국어 token을 가장 적게 사용하고 비용 저렴한지 비교 Input Text(대한민국헌법 전문, text length=373) 유구한 역사와 전통에 빛나는 우리들 대한국민은 기미 삼일운동으로 대한민국을 건립하여 세계에 선포한 위대한 독립정신을 계승하여 이제 민주독립국가를 재건함에 있어서 정의인도와 동포애로써 민족의 단결을 공고히 하며 모든 사회적 폐습을 타파하고 민주주의제제도를 수립하여 정치, 경제, 사회, 문화의 모든 영역에 있어..
Retrieval PDF PDF 문서 embedding - vectorize db와 비교 - similar score - retreival document (1) Pagkage Import from langchain.vectorstores import Chroma from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.llms import OpenAI from langchain.chains import RetrievalQA from langchain.document_loaders import TextLoader from langchain.document_loaders import PyPDFLoader from la..
다했다
'embedding' 태그의 글 목록