Natural Language Processing

“대한민국 법률 전문”을 가지고 OpenAI(ChatGPT), GOOGLE(Gemini), Antropic(Claude), Upstage(Solar)를 대상으로 embedding 후 token 수를 비교하는 실험을 진행 Goal : API로 제공되는 LLM 중 어떤 모델이 한국어 token을 가장 적게 사용하고 비용 저렴한지 비교 Input Text(대한민국헌법 전문, text length=373) 유구한 역사와 전통에 빛나는 우리들 대한국민은 기미 삼일운동으로 대한민국을 건립하여 세계에 선포한 위대한 독립정신을 계승하여 이제 민주독립국가를 재건함에 있어서 정의인도와 동포애로써 민족의 단결을 공고히 하며 모든 사회적 폐습을 타파하고 민주주의제제도를 수립하여 정치, 경제, 사회, 문화의 모든 영역에 있어..
"Should You Mask 15% in Masked Language Modeling?" https://arxiv.org/abs/2202.08005 Should You Mask 15% in Masked Language Modeling? Masked language models (MLMs) conventionally mask 15% of tokens due to the belief that more masking would leave insufficient context to learn good representations; this masking rate has been widely used, regardless of model sizes or masking strategies. In arxiv.org..
ValueError: The `response.parts` quick accessor only works for a single candidate, but none were returned. Check the `response.prompt_feedback` to see if the prompt was blocked. 원인 : 잘못된 request로 prompt 응답이 차단된 case 혹은 safety setting error request 보내기 전에 parameter를 다 기입해준다. 현재로서는 max_tokens candidate_count : 출력 수 top_p : log_probabilities들의 argmax 값을 역순으로 정렬한뒤 단어 단위로 재구성 (글렀다_argmax : 0.7, 힘들다_a..
Llama-Index with Pinecone 이 노트북에서는 semantic-search를 위해 Pinecone과 llama-index(이전의 GPT-index) 라이브러리를 사용하는 방법을 보여준다. 이 노트북은 llama-index의 예시이며 향후 릴리스에서는 Pinecone 예제 저장소에서 찾을 수 있습니다. 1) install packages !pip install -qU llama-index datasets pinecone-client openai transformers 2) SQuAD dataset Load Wikipedia(context-title) from datasets import load_dataset data = load_dataset('squad', split='train') d..
BACKGROUND & STATE OF THE ART 자연어 처리(NLP) 영역에서 언어 모델은 과거 입력 토큰의 시퀀스를 사용하여 토큰(예: 단어)을 생성하는 데 사용됩니다. 대용량 언어 모델(Large Language Models, LLMs)은 이 공간에서의 최신 딥러닝 혁신으로, 인간과 유사한 방식으로 텍스트를 생성하기 위해 설계되었습니다. 이러한 모델은 일반적으로 입력 토큰의 큰 시퀀스에 대한 주의를 개선하기 위해 transformer를 사용합니다. LLaMA는 1조 개 이상의 토큰으로 훈련된 강력한 기반 LLM으로, Meta AI에서 오픈 소스로 제공됩니다. LLaMA는 GPT-3, Chinchilla, PaLM과 같은 많은 최고의 모델과 경쟁력을 가지고 있습니다. LLaMA (13B)는 GPT..
Textbooks Are All You Need Abstract 우리는 phi-1이라는 새로운 대규모 언어 모델을 소개합니다. 이 모델은 경쟁 모델보다 훨씬 작은 크기를 가지고 있습니다. phi-1은 1.3B 개의 파라미터를 가진 Transformer 기반 모델로, 웹에서 "교과서 수준"의 데이터 (6B 토큰)와 GPT-3.5 (1B 토큰)를 사용하여 8 A100에서 4일 동안 훈련되었습니다. 이 작은 규모에도 불구하고 phi-1은 HumanEval에서 50.6%의 pass@1 정확도와 MBPP에서 55.5%의 정확도를 달성합니다. 또한, 코딩 연습 데이터셋에서 finetuning 단계 이전인 phi-1-base 모델과 같은 파이프라인으로 훈련된 350M 개의 파라미터를 가진 더 작은 모델인 phi-1-..
https://kaiokendev.github.io/context Extending Context is Hard pages kaiokendev.github.io kaiokendev.github.io 확장 컨텍스트는 어렵지만 불가능하지는 않습니다† 표면적으로는 쉬운 작업이어야 합니다. 저는 긴 시퀀스 길이에 대해 사전 훈련된 모델을 미세 조정하는 방법을 연구하면서 이 글을 작성하고 있었습니다. 이 경우, 사전 훈련된 모델은 LLaMa이며, 사전 훈련 시퀀스 길이는 2048입니다. 긴 시퀀스에서 모델을 단순히 미세 조정하는 것은 항상 작동하지 않는 것처럼 보였지만, 가능해야 한다고 생각했으므로 완전히 도전해 보았습니다. 이제 1줄의 코드로 컨텍스트를 확장하는 방법이 있으며, 이에 많은 관심이 집중되고 있습니..
https://betterprogramming.pub/openais-embedding-model-with-vector-database-b69014f04433 OpenAI’s Embedding Model With Vector Database The updated Embedding model offers State-of-the-Art performance with 4x longer context window. Thew new model is 90% cheaper. The smaller… betterprogramming.pub Introduction OpenAI는 2022년 12월 임베딩 모델을 텍스트 임베딩-ada-002로 업데이트했습니다. 새 모델은 다음을 제공합니다: 90%-99.8% 저렴한 비용 1/8..
다했다
'Natural Language Processing' 카테고리의 글 목록