Natural Language Processing

Retrieval PDF PDF 문서 embedding - vectorize db와 비교 - similar score - retreival document (1) Pagkage Import from langchain.vectorstores import Chroma from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.llms import OpenAI from langchain.chains import RetrievalQA from langchain.document_loaders import TextLoader from langchain.document_loaders import PyPDFLoader from la..
Default import os os.environ['OPENAI_API_KEY'] = 'sk-...' Building Custom Tools 1) Package Import from langchain import OpenAI from langchain.chat_models import ChatOpenAI from langchain.chains.conversation.memory import ConversationBufferWindowMemory # callback cost from langchain.callbacks import get_openai_callback 2) llm model 설정 turbo_llm = ChatOpenAI( temperature = 0, model_name = 'gpt-3.5..
Small scale dataset text classification [Data imbalanced] Dealing with Data Imbalance in Text Classification Author links open overlay panel https://www.sciencedirect.com/science/article/pii/S1877050919314152 [Augment Data] Improving Short Text Classification With Augmented Data Using GPT-3 https://arxiv.org/abs/2205.10981 [Small Text Classification] Extremely Small BERT Models from Mixed-Vocabu..
https://medium.com/@alfarruggia/from-zero-to-transformers-on-apple-m1-chip-e5d9afa35f5 From Zero to Transformers on Apple M1 Chip A copy-and-paste guide to install Tensorflow and Transformers on Apple M1 Chip. medium.com pip에서 rust를 통해 라이브러리를 설치하는데 문제가 있어,, 아무리 환경 설정을 잡아도 되지 않아 conda install -c huggingface transformers -y conda를 통해 해결
BPE 단계 - 빈도수와 함께 주어진 데이터셋에서 단어 추출 - 어휘 사전 크기 정의 (vocab_dict) - 단어를 문자 시퀀스로 분할 - 문자 시퀀스의 모든 고유 문자를 어휘 사전에 추가 - 빈도가 높은 기호 쌍을 선택하고 병합 - 어휘 사전 크기에 도달할 때까지 앞 다섯 단계 반복
* 하위단어 Pretrained -> Pre + train + -ed * OOV (Out of Vocabulary) 단어 사전에 없는 용어를 말한다. * 하위 단어 토큰화는 트랜스포머 계열에서 널리 쓰인다. Pre-trained 모델에서 발생하는 OOV 단어 처리에 효과적인 결과를 가져다준다. - 나는 영화를 즐겼다. - 나는 영화를 보았다. 두 문장은 동일한 문장이다. '보았다'를 OOV로 보았을 때 모델은 같은 의미인지 파악하지 못한다. 이때 하위 단어 Tokenized를 통해 모델에 의미를 좀더 명확히 전달할 수있다. ex) (즐기다,-했다) (보다,-했다)
* BERT모델에 사용되는 사전 학습 전략 (Pretrained Training) 다음 문장 예측에 대한 방법은 이진 분류로 진행한다. EX) A : 종합소득세 신고는 어디서하나요? B : 홈텍스에서 합니다. A의 후속 문장으로 B가 알맞음을 알 수 있다. 이 경우 isNext(True)로 표시 한다. A : 종합소득세 신고는 어디서하나요? B : SSEM에서 합니다. A의 후속 문장이 B가 맞는지 알 수 없다. 이 경우 notNext(False)로 표시한다. 이렇게 is / not으로 이진 분류를 진행한다. 학습 초기에는 피드포워드 네트워크(ReLU)의 가중치가 정확하지 않아 올바르게 반환하지 못한다. 최적의 가중치를 찾으면서 다음 문장에 대한 관계를 정확하게 판단하게 된다. * 사전 학습 절차 MLM..
토큰화 진행 후 input shape를 위해 채워주었던 빈 공간들을 사용하지 않고 처음 부터 해당 길이에 맞추어 토큰화 진행한다. 해당 토큰의 시작 점과 끝 지점을 설정해 input shape를 정한다. 짧은 길이의 문장 같은 경우 max_len 까지 빈 공간이 많이 생겨 predict에 큰 영향을 준다. 이러한 문제를 해결하기 위해 버키팅을 사용한다.
다했다
'Natural Language Processing' 카테고리의 글 목록 (3 Page)