728x90
반응형
BPE 단계
- 빈도수와 함께 주어진 데이터셋에서 단어 추출
- 어휘 사전 크기 정의 (vocab_dict)
- 단어를 문자 시퀀스로 분할
- 문자 시퀀스의 모든 고유 문자를 어휘 사전에 추가
- 빈도가 높은 기호 쌍을 선택하고 병합
- 어휘 사전 크기에 도달할 때까지 앞 다섯 단계 반복
반응형
'Natural Language Processing' 카테고리의 다른 글
small scale text data classification (0) | 2023.05.16 |
---|---|
[M1 Transformers] M1 Mac Transformers Install Error (0) | 2022.06.19 |
[BERT] 하위 단어 토큰화 + OOV (Out of Vocabulary) (0) | 2022.05.09 |
[BERT Dict] NSP(Next Senctenct Prediction) Task (0) | 2022.05.07 |
버키팅(bucketing)을 이용한 학습 복잡도 해결 (0) | 2021.03.28 |