[BERT] 하위 단어 토큰화 + OOV (Out of Vocabulary)

728x90

* 하위단어

Pretrained -> Pre + train + -ed

* OOV (Out of Vocabulary)

단어 사전에 없는 용어를 말한다.

- 나는 영화를 즐겼다.

- 나는 영화를 보았다.

두 문장은 동일한 문장이다. '보았다'를 OOV로 보았을 때 모델은 같은 의미인지 파악하지 못한다.

이때 하위 단어 Tokenized를 통해 모델에 의미를 좀더 명확히 전달할 수있다.

ex) (즐기다,-했다) (보다,-했다)

[M1 Transformers] M1 Mac Transformers Install Error (0)	2022.06.19
[BERT TOKENIZE]단어 토큰화 (1)- 바이트 쌍 인코딩 (0)	2022.05.09
[BERT Dict] NSP(Next Senctenct Prediction) Task (0)	2022.05.07
버키팅(bucketing)을 이용한 학습 복잡도 해결 (0)	2021.03.28
[CNN] 합성곱 신경망 (feat. Learning Word Vectors for Sentiment Analysis) (0)	2021.03.13

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바