B's — B's

[Jupyter Notebook] 주피터 노트북 셀 스크립트 너비 조절(cell script option), 판다스 너비 조절

2021.03.21·

🐍 Python

from IPython.core.display import display, HTML display(HTML("")) import pandas as pd # 보기 너비 증가 pd.set_option('display.max.colwidth', 200)

[Data Crawling] Spongebob - 1

2021.03.16·

🐍 Python

spongebob.fandom.com/wiki/Encyclopedia_SpongeBobia Encyclopedia SpongeBobia Encyclopedia SpongeBobia is the SpongeBob SquarePants encyclopedia that anyone can edit, and we need your help! We chronicle everything SpongeBob SquarePants, which is a show that follows SpongeBob, a little yellow sponge, whose adventures have captivated spongebob.fandom.com 스폰지밥의 대사를 추출하기 위해 Season별 타이틀과 그 대사가 담긴 사이트를 ..

[CNN] 합성곱 신경망 (feat. Learning Word Vectors for Sentiment Analysis)

2021.03.13·

🗣️ Natural Language Processing

ai.stanford.edu/~amaas/data/sentiment/ Sentiment Analysis Publications Using the Dataset Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics (A ai.stanford.edu 스탠퍼드 대학교 인공지능 연구팀의 원본 자료로 classification 진행 import glob import os f..

[doc2vec] 문서 유사도 추정

2021.03.09·

🗣️ Natural Language Processing

word2vec의 개념을 문장이나 문서 전체로 확장시켜 활용한다. 기존 단어들에 근거해서 다음 단어를 예측함으로써 단어 벡터들을 학습한다는 착안을 문장이나 문단, 문서 벡터의 학습으로 확장할 수 있다. doc2vec은 점진적 학습이 가능하다. 훈련을 마친 모형에 새로운 문서들을 입력해서 새로운 문서 벡터들을 생성한다. 추론 단계에서 알고리즘은 동결된 단어벡터 행렬과 해당 가중치들로 새 문서 벡터들을 계산해서 문서 행렬에 추가한다. 문서 벡터 훈련 genism 패키지에있는 doc2vec을 위한 함수들을 이용해 문서 벡터 생성 사용할 cpu 코어 수 import multiprocessing num_cores = multiprocessing.cpu_count() genism의 doc2vec과 말뭉치 문서 벡터..

[Word2vec] 단어 관계 시각화

2021.03.08·

🗣️ Natural Language Processing

nlpia를 통해 미리 훈련된 구글 뉴스 word2vec 모형을 받아온다. 단어 수 30만개 import os from nlpia.loaders import get_data from gensim.models.word2vec import Word2VecKeyedVectors wv = get_data('word2vec') len(wv.vocab) #3000000 n-gram 단어들이 '_' 문자로 연결된 것을 확인 할 수 있다. import pandas as pd from tqdm import tqdm vocab = pd.Series(wv.vocab) vocab.iloc[1000000:1000006] # Starwood_Hotels_HOT Vocab(count:2000000, index:1000000) # ..

Word2vec Vs GloVe

2021.03.08·

🗣️ Natural Language Processing

word2vec은 NLP에 혁신을 가져왔지만 반드시 역전파를 이용해 훈련을 해야한다는 신경망 의존이 크다. 이를 스탠퍼드 연구팀은 SVD를 적용해 word2vec으로 산출한 것과 동일한 두개의 가중치 행렬을 통해 역전파 수렴이 불가능한 경우를 발견 했다. 이를 해결하기 위해 Glove 전역에 대한 단어 공동 출현 빈도를 최적화 시켜 해결했다. Word2vec이 큰 말뭉치를 대상으로만 훈련이 가능한 반면 Glove는 더 작은 말뭉치로도 훈련이 가능하다. GloVe의 장점 훈련이 빠르다. RAM과 CPU 효울성이 좋다. 적은 말뭉치도 활용이 가능하다. 같은 훈련 자료로 훈련했을 떄 word2vec 보다 더 정확한 결과를 제공한다.

티스토리툴바