[BERT TOKENIZE]단어 토큰화 (1)- 바이트 쌍 인코딩
·
🗣️ Natural Language Processing
BPE 단계 - 빈도수와 함께 주어진 데이터셋에서 단어 추출 - 어휘 사전 크기 정의 (vocab_dict) - 단어를 문자 시퀀스로 분할 - 문자 시퀀스의 모든 고유 문자를 어휘 사전에 추가 - 빈도가 높은 기호 쌍을 선택하고 병합 - 어휘 사전 크기에 도달할 때까지 앞 다섯 단계 반복
[BERT] 하위 단어 토큰화 + OOV (Out of Vocabulary)
·
🗣️ Natural Language Processing
* 하위단어 Pretrained -> Pre + train + -ed * OOV (Out of Vocabulary) 단어 사전에 없는 용어를 말한다. * 하위 단어 토큰화는 트랜스포머 계열에서 널리 쓰인다. Pre-trained 모델에서 발생하는 OOV 단어 처리에 효과적인 결과를 가져다준다. - 나는 영화를 즐겼다. - 나는 영화를 보았다. 두 문장은 동일한 문장이다. '보았다'를 OOV로 보았을 때 모델은 같은 의미인지 파악하지 못한다. 이때 하위 단어 Tokenized를 통해 모델에 의미를 좀더 명확히 전달할 수있다. ex) (즐기다,-했다) (보다,-했다)
[BERT Dict] NSP(Next Senctenct Prediction) Task
·
🗣️ Natural Language Processing
* BERT모델에 사용되는 사전 학습 전략 (Pretrained Training) 다음 문장 예측에 대한 방법은 이진 분류로 진행한다. EX) A : 종합소득세 신고는 어디서하나요? B : 홈텍스에서 합니다. A의 후속 문장으로 B가 알맞음을 알 수 있다. 이 경우 isNext(True)로 표시 한다. A : 종합소득세 신고는 어디서하나요? B : SSEM에서 합니다. A의 후속 문장이 B가 맞는지 알 수 없다. 이 경우 notNext(False)로 표시한다. 이렇게 is / not으로 이진 분류를 진행한다. 학습 초기에는 피드포워드 네트워크(ReLU)의 가중치가 정확하지 않아 올바르게 반환하지 못한다. 최적의 가중치를 찾으면서 다음 문장에 대한 관계를 정확하게 판단하게 된다. * 사전 학습 절차 MLM..
[Mysql] python executemany 사용시 TypeError: not all arguments converted during string ...
·
🛢️ Database
cursor.executemany(sql, data)로 다수의 로우 데이터를 INSERT 할 수 있다. sql : INSERT 쿼리 문을 넣으면 된다. sql = """INSERT INTO TBL_NAME (COL1_NAME, COL2_NAME, COL3_NAME) VALUES(%s,%s,%s)""" data : sql 입력 파라미터들을 tuple로 만들고 list로 감싸주면 된다. data = [(parm1,parm2,parm3),(parm1,parm2,parm3),(parm1,parm2,parm3)....] [ERROR] TypeError: not all arguments converted during string sql문에서 ON DUPLICATE KEY UPDATE 사용시 주의 [잘못된 방식] s..
[Mysql] Python Sql query Format Error
·
🛢️ Database
#10.5.4 MySQLCursor.execute() Method cursor.execute(operation, params=None, multi=False) iterator = cursor.execute(operation, params=None, multi=True) This method executes the given database operation (query or command). The parameters found in the tuple or dictionary params are bound to the variables in the operation. Specify variables using %s or %(name)s parameter style (that is, using format..
[Mysql] Pymysql INSERT 쿼리 생성기
·
🛢️ Database
def input_sql(data, input_table_name, pk=None): """ data: Input Data DataFrame input_table_name: Table name Str pk: Primary Key Name List """ colnames = list(data.columns) INPUT_NAME = '' for col in colnames: INPUT_NAME = INPUT_NAME + col.upper() +',' INPUT_NAME = INPUT_NAME[:-1] VALUES_INPUT = '' for col in colnames: VALUES_INPUT = VALUES_INPUT +'"%s",' VALUES_INPUT = VALUES_INPUT[:-1] sql = f"..
[Macbook pro m1] Help Note
·
💻 Mac
맥북 - Help 11.30 맥북 프로 도착 VSCODE 설치 Tensor flow 설치 및 업그레이드(https://developer.apple.com/metal/tensorflow-plugin/) 맥 단축키 ( https://support.apple.com/ko-kr/HT201236 ) Opt + com + esc 창 강제 종료 Com + tab + q Brew 설치 12.01 12.02 데스크톱 전환 ^+
[Code-Server] 코드 서버에서 주피터 노트북 사용하기
·
🐍 Python
pip install jupyter-vscode-server https://pypi.org/project/jupyter-vscode-server/ jupyter-vscode-server A Jupyter extension to launch VS Code pypi.org [Using Docker] ENV CODESERVER_URL="https://github.com/cdr/code-server/releases/download/1.1119-vsc1.33.1/code-server1.1119-vsc1.33.1-linux-x64.tar.gz" CODESERVER="code-server1.1119-vsc1.33.1-linux-x64" RUN wget ${CODESERVER_URL} && tar xvf ${CODES..
다했다
'분류 전체보기' 카테고리의 글 목록 (38 Page)