[BERT Dict] NSP(Next Senctenct Prediction) Task

728x90

다음 문장 예측에 대한 방법은 이진 분류로 진행한다.

EX)

A : 종합소득세 신고는 어디서하나요?

B : 홈텍스에서 합니다.

A의 후속 문장으로 B가 알맞음을 알 수 있다. 이 경우 isNext(True)로 표시 한다.

A : 종합소득세 신고는 어디서하나요?

B : SSEM에서 합니다.

A의 후속 문장이 B가 맞는지 알 수 없다. 이 경우 notNext(False)로 표시한다.

이렇게 is / not으로 이진 분류를 진행한다.

학습 초기에는 피드포워드 네트워크(ReLU)의 가중치가 정확하지 않아 올바르게 반환하지 못한다. 최적의 가중치를 찾으면서 다음 문장에 대한 관계를 정확하게 판단하게 된다.

MLM(Mask 채우기)

+ NSP(다음 문장 예측)을 통해 BERT를 학습 시킨다.

+ 웜업 스텝 - Adam Optimizer (초기에는 큰 변화를 유도하고 학습 후반에는 낮은 학습률로 작은 변화를 주어 최적화)

활성화 함수로 GeLU(Gaussian Error Linear Unit)를 사용

저작자표시

[BERT TOKENIZE]단어 토큰화 (1)- 바이트 쌍 인코딩 (0)	2022.05.09
[BERT] 하위 단어 토큰화 + OOV (Out of Vocabulary) (0)	2022.05.09
버키팅(bucketing)을 이용한 학습 복잡도 해결 (0)	2021.03.28
[CNN] 합성곱 신경망 (feat. Learning Word Vectors for Sentiment Analysis) (0)	2021.03.13
[doc2vec] 문서 유사도 추정 (0)	2021.03.09

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바