[BERT TOKENIZE]단어 토큰화 (1)- 바이트 쌍 인코딩
·
🗣️ Natural Language Processing
BPE 단계 - 빈도수와 함께 주어진 데이터셋에서 단어 추출 - 어휘 사전 크기 정의 (vocab_dict) - 단어를 문자 시퀀스로 분할 - 문자 시퀀스의 모든 고유 문자를 어휘 사전에 추가 - 빈도가 높은 기호 쌍을 선택하고 병합 - 어휘 사전 크기에 도달할 때까지 앞 다섯 단계 반복