[Word2Vec] 연속 단어 모음
·
🗣️ Natural Language Processing
연속 단어 모음 접근 방식 연속 단어 모음(CBOW) 접근 방식에서는 주어진 단어들에 기초해서 그 중심 단어를 예측한다. 따라서 하나의 훈련 견본은 하나의 입력 단어와 다수의 출력 단어들이 아니라 다수의 주변 단어들과 하나의 중심 단어로 구성된다. 다수의 주변 단어들은 멀티핫 벡터로 표현한다. 이 멀티핫 벡터는 주변 단어들의 원핫 벡터들을 모두 합한 것이다. painted가 기대출력일 때 $W_{t-2}$ = Claude $W_{t-1}$ = Monet $W_{t}$ = painted $W_{t+1}$ = the $W_{t+2}$ = Grand 문서를 토큰화해서 얻은 주변 단어 멀티핫 벡터와 목표 단어 원핫 벡터의 쌍들로 이루어진 훈련 자료 집합으로 신경망을 훈련한다. 즉 목표 단어 $w_t$의 원핫 벡..