728x90
반응형
자연어 처리의 활용빈도가 가장 높은 챗봇을 만들어 본다. 단순하게 규칙 기반으로 제작, 머신러닝 유사도 활용 등 다양한 방법이 있지만 딥러닝을 통해 실습을 한다. 딥러닝에서도 Sequence to sequence 모델을 활용해 챗봇을 제작하는 방법을 사용한다.
Data : github.com/songys/Chatbot_data
songys/Chatbot_data
Chatbot_data_for_Korean. Contribute to songys/Chatbot_data development by creating an account on GitHub.
github.com
( http://cafe116.daum.net/_c21_/home?grpid=1bld )에서 자주 나오는 이야기들을 참고하여 제작
자료를 오픈으로 제공해주신 songys님께 감사합니다.
- 챗봇 트레이닝용 문답 페어 11,876개
- 일상다반서 0, 이별(부정) 1, 사랑(긍정) 2로 레이블링
import pandas as pd
FILE = 'ChatbotData .csv'
data = pd.read_csv(PATH+FILE,encoding='utf-8')
data.head()
# Q A label
# 0 12시 땡! 하루가 또 가네요. 0
# 1 1지망 학교 떨어졌어 위로해 드립니다. 0
# 2 3박4일 놀러가고 싶다 여행은 언제나 좋죠. 0
# 3 3박4일 정도 놀러가고 싶다 여행은 언제나 좋죠. 0
# 4 PPL 심하네 눈살이 찌푸려지죠. 0
- 문장 단위의 길이 분석
- 단어 단위의 길이 분석
- 형태소 단위의 길이 분석
# 질문 문장과 단어 문장의 품사 비율
반응형
'Natural Language Processing' 카테고리의 다른 글
잠재 디클레 할당 (LDiA, Latent Dirichlet Allocation) (0) | 2021.02.17 |
---|---|
[Kaggle] 네이버 영화 리뷰 분류(2) (0) | 2021.02.17 |
MaLSTM (0) | 2021.02.13 |
[Kaggle] 네이버 영화 리뷰 분류(1) (0) | 2021.02.12 |
PCA, SVD 잠재 의미 분석 (0) | 2021.02.11 |