728x90
반응형
* 하위단어
Pretrained -> Pre + train + -ed
* OOV (Out of Vocabulary)
단어 사전에 없는 용어를 말한다.
* 하위 단어 토큰화는 트랜스포머 계열에서 널리 쓰인다. Pre-trained 모델에서 발생하는 OOV 단어 처리에 효과적인 결과를 가져다준다.
- 나는 영화를 즐겼다.
- 나는 영화를 보았다.
두 문장은 동일한 문장이다. '보았다'를 OOV로 보았을 때 모델은 같은 의미인지 파악하지 못한다.
이때 하위 단어 Tokenized를 통해 모델에 의미를 좀더 명확히 전달할 수있다.
ex) (즐기다,-했다) (보다,-했다)
반응형
'Natural Language Processing' 카테고리의 다른 글
[M1 Transformers] M1 Mac Transformers Install Error (0) | 2022.06.19 |
---|---|
[BERT TOKENIZE]단어 토큰화 (1)- 바이트 쌍 인코딩 (0) | 2022.05.09 |
[BERT Dict] NSP(Next Senctenct Prediction) Task (0) | 2022.05.07 |
버키팅(bucketing)을 이용한 학습 복잡도 해결 (0) | 2021.03.28 |
[CNN] 합성곱 신경망 (feat. Learning Word Vectors for Sentiment Analysis) (0) | 2021.03.13 |