728x90
* ํ์๋จ์ด
Pretrained -> Pre + train + -ed
* OOV (Out of Vocabulary)
๋จ์ด ์ฌ์ ์ ์๋ ์ฉ์ด๋ฅผ ๋งํ๋ค.
* ํ์ ๋จ์ด ํ ํฐํ๋ ํธ๋์คํฌ๋จธ ๊ณ์ด์์ ๋๋ฆฌ ์ฐ์ธ๋ค. Pre-trained ๋ชจ๋ธ์์ ๋ฐ์ํ๋ OOV ๋จ์ด ์ฒ๋ฆฌ์ ํจ๊ณผ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ๋ค์ค๋ค.
- ๋๋ ์ํ๋ฅผ ์ฆ๊ฒผ๋ค.
- ๋๋ ์ํ๋ฅผ ๋ณด์๋ค.
๋ ๋ฌธ์ฅ์ ๋์ผํ ๋ฌธ์ฅ์ด๋ค. '๋ณด์๋ค'๋ฅผ OOV๋ก ๋ณด์์ ๋ ๋ชจ๋ธ์ ๊ฐ์ ์๋ฏธ์ธ์ง ํ์ ํ์ง ๋ชปํ๋ค.
์ด๋ ํ์ ๋จ์ด Tokenized๋ฅผ ํตํด ๋ชจ๋ธ์ ์๋ฏธ๋ฅผ ์ข๋ ๋ช ํํ ์ ๋ฌํ ์์๋ค.
ex) (์ฆ๊ธฐ๋ค,-ํ๋ค) (๋ณด๋ค,-ํ๋ค)
๋ฐ์ํ
'๐ฃ๏ธ Natural Language Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[M1 Transformers] M1 Mac Transformers Install Error (0) | 2022.06.19 |
---|---|
[BERT TOKENIZE]๋จ์ด ํ ํฐํ (1)- ๋ฐ์ดํธ ์ ์ธ์ฝ๋ฉ (0) | 2022.05.09 |
[BERT Dict] NSP(Next Senctenct Prediction) Task (0) | 2022.05.07 |
๋ฒํคํ (bucketing)์ ์ด์ฉํ ํ์ต ๋ณต์ก๋ ํด๊ฒฐ (0) | 2021.03.28 |
[CNN] ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง (feat. Learning Word Vectors for Sentiment Analysis) (0) | 2021.03.13 |