"Should You Mask 15% in Masked Language Modeling?"
https://arxiv.org/abs/2202.08005
Should You Mask 15% in Masked Language Modeling?
Masked language models (MLMs) conventionally mask 15% of tokens due to the belief that more masking would leave insufficient context to learn good representations; this masking rate has been widely used, regardless of model sizes or masking strategies. In
arxiv.org
BERT 논문은 (2024.3.24) 기준 95486번 인용될 정도로 NLP에서 빠질 수 없는 모델이다. Generation 모델이 유명해지기 전까지 pre-training이라는 개념과 NLP에서 NLU로 Task 확장의 가능성을 보여주었다. 논문에서 주요 등장하는 Task인 Masked LM, Next Sentence Prediction NSP 중 Masked LM의 비율이 왜? 15% 인가 궁금해 본 논문을 검색해보았다.
"Should You Mask 15% in Masked Language Modeling?" 논문은 2022년에 BERT model의 Masked 비율을 조절해가며 실험 결과를 정리했다.
1) 마스킹 비율의 효과
마스킹 비율이란 원본 문장에서 마스킹된 토큰의 비율을 의미한다. 일반적으로 BERT모델에서 15%의 마스킹 비율이 사용되는데 원본 문장에서 15%의 토큰이 마스킹되고 모델이 예측하도록 학습이 이루어진다. 연구 결과, 마스킹 비율이 모델의 성능에 큰 영향을 미친다는 것을 확인했다.
- Pre-tranined scratch에 따라 GLUE 및 SQuAD를 Pre-trained model을 사용할 때 BERT-large 모델의 경우 40% 마스킹이 15% 성능을 능가.
- 흥미롭게도 매우 높은 마스킹 비율(최대 80% 마스킹)의 경우에도 large 모델은 여전히 좋은 표현을 학습하고 다운스트림 작업에서 pre-trained 성능을 유지할 수 있음.
결과적으로 일반적인 모델에서도 마스킹 비율을 높이는 것이 더 좋은 학습 모델을 만들 수 있을 것을 시사.
2) 마스킹의 기능과 효과, 요인분석
마킹이 증가하는 경향이 있는 모델의 성능이 향상되는 경향이 있다. 마스킹을 높이면 모델은 더 많은 문맥을 예측해야 하기 때문에 더 많은 정보를 배울 수 있다. 하지만, 너무 높은 마스킹 작업은 모델에게 어려운 예측 과제를 제공하기 위해 적절한 마스킹을 선택하는 것이 중요하다.
마스킹의 성능은 두 가지 요인이 있다. 첫 번째 요인은 문맥의 loss로, 마스킹된 표현의 의미입니다. 두 번째 요인은 Prediction rate으로, 예측이 예측하는 의미를 의미한다. 이 두 가지 요인은 상반된 효과를 가지고 있으며, 예측 범위가 높음을 좀 더 모델의 학습 신호가 더 많이 생성되어 최적화에 도움이 되는 경우, 문맥의 정보가 적을 수록 예측이 더 어려워지므로 적절한 범위를 찾는 것이 중요 (너무 많은 정보의 손실은 과적합을 불러온다는 의미)
본 논문에서 GLUE, SQuAD에 대해서만 연구를 진행하고 표준 일반적인 연구에서 정량적인 효과를 검증하려했으나 NLP의 적용 분야 Task(NLU, sentiment classification 등) 마다 다른 효과를 가지기에 제한적인 설명을 한다. 하지만 이런 연구를 토대로 마스킹 비율만으로 학습하려는 모델의 성능을 높이고 시간을 줄일 수 있다는 것을 알려준다.