전체 글

One By One
· Python
import matplotlib.font_manager as fm font_location = 'C:\\Windows\\Fonts\\H2SA1M.ttf' # 폰트 위치 font_name = fm.FontProperties(fname=font_location).get_name() plt.rc('font', family=font_name) # 폰트 적용
자연어 처리의 활용빈도가 가장 높은 챗봇을 만들어 본다. 단순하게 규칙 기반으로 제작, 머신러닝 유사도 활용 등 다양한 방법이 있지만 딥러닝을 통해 실습을 한다. 딥러닝에서도 Sequence to sequence 모델을 활용해 챗봇을 제작하는 방법을 사용한다. Data : github.com/songys/Chatbot_data songys/Chatbot_data Chatbot_data_for_Korean. Contribute to songys/Chatbot_data development by creating an account on GitHub. github.com ( http://cafe116.daum.net/_c21_/home?grpid=1bld )에서 자주 나오는 이야기들을 참고하여 제작 자료를 오..
############## MaLSTM 모델 ############## LSTM계열을 활용해 문장의 유사도를 구한다. MaLSTM 모델은 2016년 MIT에서 조나스 뮐러(Jonas Mueller)의 논문에서 처음 소개 되었다. 문자의 Sequence 형태로 학습 시키고 기존 RNN보다 장기적인 학습에 효과적인 성늘을 보여줬다. MaLSTM이란 맨하탄 거리(Manhattan Distance) + LSTM의 줄임말이다. 코사인 유사인 유사도를 대신해 맨하탄 거리(L1)을 이용한다. LSTM의 마지막 스텝인 $LSTM_a$의 $h_5^{a}$ 값과 $LSTM_b$의 $h_4^{b}$ 값이 은닉 상태 벡터로 사용된다. 이 값은 문장의 모든 단어에 대한 정보가 반영된 값으로 전체 문장을 대표하는 벡터가 된다. ..
www.kaggle.com/c/dfc615k/data DFC615K DFC615 Natural Language Processing Task 1 www.kaggle.com NSMC 네이버 영화 리뷰에 달린 별점을 긍정/부정으로 변환한 binary-class 데이터 셋 # kaggle-nsmc import os import zipfile def extractall(path,s_path,info=None,f_type=None): file_list = os.listdir(path) for file in file_list: try: if file.split('.')[1] in "zip": zipRef = zipfile.ZipFile(path + file, 'r') zipRef.extractall(s_path) #..
=== PCA === scikit-learn의 PCA모형을 문자 메시지들에 적용 import pandas as pd from nlpia.data.loaders import get_data sms = get_data("sms-spam") sms.head() index = ['sms{}{}'.format(i,'!'*j) for (i,j) in zip(range(len(sms)), sms.spam)] sms.index = index # 각 메시지의 TF-IDF 벡터를 계산 from sklearn.feature_extraction.text import TfidfVectorizer from nltk.tokenize.casual import casual_tokenize tfidf = TfidfVectorizer(t..
Gated Recurrent Unit LSTM을 개선한 순환 신경망의 게이트 구조 2014년 뉴욕 대학교의 조경현 교수님 외 6인이 최초 제안 했다. GRU는 입력 게이트와 망각 게이트를 합한 업데이트 게이트가 있다. 기억 셀에는 출력게이트가 없는 대신 과거에서 이어받은 기억을 선별하는 리셋 게이트가 있다. 이러한 게이트가 동작해 LSTM처럼 장기 기억을 이어 받을 수 있다. +: 원소간의 합 x: 원소간의 곱 1-: 전달받은 값을 1에서 빼기 σ: 시그모이드 함수 r: 리셋 게이트 z: 업데이트 게이트 h: 새로운 기억 x: t 시점에서 신경망층의 입력 h : t-1 이전 시점의 출력 게이트 2개에는 각각 학습 파라미터가 있다. 또한 tanh를 또 다른 활성화 함수로 사용하는 학습 파라미터가 있다. 총..
다했다
B's