728x90
반응형
토큰화 진행 후 input shape를 위해 채워주었던 빈 공간들을 사용하지 않고 처음 부터 해당 길이에 맞추어 토큰화 진행한다.
해당 토큰의 시작 점과 끝 지점을 설정해 input shape를 정한다.
짧은 길이의 문장 같은 경우 max_len 까지 빈 공간이 많이 생겨 predict에 큰 영향을 준다. 이러한 문제를 해결하기 위해 버키팅을 사용한다.
반응형
'Natural Language Processing' 카테고리의 다른 글
[BERT] 하위 단어 토큰화 + OOV (Out of Vocabulary) (0) | 2022.05.09 |
---|---|
[BERT Dict] NSP(Next Senctenct Prediction) Task (0) | 2022.05.07 |
[CNN] 합성곱 신경망 (feat. Learning Word Vectors for Sentiment Analysis) (0) | 2021.03.13 |
[doc2vec] 문서 유사도 추정 (0) | 2021.03.09 |
[Word2vec] 단어 관계 시각화 (0) | 2021.03.08 |