728x90
์ด๋ฒ์ LangCon์ ์ฒ์์ผ๋ก ์ฐธ์ฌํ๊ฒ ๋์๋ค. 2๋ ์ ๋ง ํด๋ BERT ๋ชจ๋ธ๋ง์ ๊ฟ๋ ๋ชป๊พธ๋ ์์ ์ด ์์๋ค. ์ด ์๊ธฐ์ LangCon์ ์๊ณ ์์์ง๋ง NLP ์ ๋ฌธ ๊ณผ์ ์ด๋ผ ์ฐธ์ฌํ์ง ๋ชปํ๋ค. ์ฌ์ค ์ด๋ฒ LangCon์ KoELECTRA, KLUE BERT๋ก ์ ๋ช ํ์ monologg(์ฅ์ํ)๋์ ๋ฐํ ์ธ์ ์ด ์์ด ์ฐธ์ฌํ๊ฒ๋์๋ค. BERT๋ฅผ ์ ํ๋ค๋ฉด KoBERT-Transformers๋ฅผ ํ๋ฒ ์ฏค ๋ณด์์ ๊ฒ์ด๋ค. BERT์ฅ์ธ์ผ๋ก Vocab ๋ง๋ค๊ธฐ ๋ถํฐ Fine-Tuning๊น์ง NLP ๋ณ์๋ฆฌ๋ค์๊ฒ๋ ์ ๋ง ์ข์ ๊ฐ์ด๋๋ผ์ธ์ ๋ง๋ค์ด ์ฃผ์ จ๋ค.
1) ์ฐ๋ฆฐ ๋จธ์ ๊ณผ ์ด๋ป๊ฒ ๋ค๋ฅด๊ฒ ์ด์ผ๊ธฐํ๋ (feat. ์ผ์ฑ์ ์ ์ด์ข ์๋)
- ChatGPT์ ๋ํ ๊ด์ฌ์ด ๋ง์๋งํผ ์ด๋ฒ ๋ฐํ ์ฃผ์ ๋ฅผ ChatGPT๊ฐ ํ์ง ๋ชปํ๋ ์ ์ ์ฐ๊ตฌ์์ ์์ ์ผ๋ก ์ ๋ฆฌ ํด์ฃผ์
จ๋ค.
- ๋จธ์ ์ ์๋ ์๋ฆฌ
- Complex reasoning : ์ฌ๋ ๊ฐ์ ๋ํ๋ ๋ ผ๋ฆฌ์ ์ด์ง ์์ ์๊ฐ ์๋ค. (GPT๋ ๋ฌธ์ฅ์ ์ฐธ๊ณผ ๊ฑฐ์ง์ ๋ ๋ ๋ ผ๋ฆฌ ์์ฃผ์ ๋ต๋ง Output์ผ๋ก ๋์ ์ค๋ค.)
- InstructGPT : GPT๋ ๋ฐฑ๊ณผ์ฌ์ ์ฒ๋ผ ์๋ํ๊ธฐ์ ์์ฉํ๊ธฐ ์๋นํ ์ด๋ ต๋ค. ๋ํ ์ ์น์ ์ธ, ๊ธฐํธ์ฑ์ด ๊ฐํ ์ง์์ ์์ฑํ๋ ๋ฌธ์ ๊ฐ ๋ง๋ค. ์ด๋ฌํ ์ ์ ๊ทน๋ณตํ๊ณ ์ ์ง์๊ฐ ๊ฐ๋ฅํ ๋ชจ๋ธ์ GPT์ ์ ์ฉํ๋ค.
- ๋ฐ์ดํฐ์ Supervised policy๋ฅผ ๋ถ์ฌํด GPT๋ฅผ FIne-Tunig์ ํ๋ค. (-> SFT ๋ชจ๋ธ)
- SFT ๋ชจ๋ธ์ model์ output์ ๋ํ ํ๊ฐ(์ฌ์ฉ์์ ๊ธฐํธ์ ๋ง๊ฒ)๋ฅผ ๋ถ์ฌํ๋ค. (Reward Model)
- Reward Model์ ๊ฐํํ์ต์ ์ถ๊ฐํ๋ค.
- ํฅํ ๋์ด์์ผํ ํ๋ค
- Track dialogue flow -> Dialouge Acts
- ํ์์ ์๋ classification
- Request์ ๋ํ ์๋ต(Decilne + inform ์ถ๊ฐ) (ChatGPT๋ ๊ฑฐ๋ถํ์ง ๋ชปํจ)
- Semantic richness -> NL description
- ํ์ ์๋ต์ ๋ํ (์กฐ๊ฑด ๋ถ์ฌ)
- Logic of speaking -> Chain-of-speech (CoS)
- ํ์ ์๋ต์ ๋ํ ๋ช ํํ ๋ ผ๋ฆฌ ์ ๊ฐ(์๋ฏธ/ ์ฌ์ค-์ ๋ณด)๋ฅผ ์๋ต์ ์ถ๊ฐ
- Annotation ๋ฐฉ์์ ๋ ์ ํํ
- Resigning Error
- Tackaways ...
- ๊ธฐ์กด ๋ ํผ๋ฐ์ค์ ์๋ ๋ชจ๋ธ๋ง์ ์ฐ๊ตฌ,, (BERT,, GPT ์ถ์ถ์ ๊ตญ ์๋๋ฅผ ํํผํ )
- Track dialogue flow -> Dialouge Acts
- ๋จธ์ ์ ์๋ ์๋ฆฌ
2) ํน์ ๋๋ฉ์ธ์ ๋ง๋ ์ธ์ด๋ชจ๋ธ์ ์ด๋ป๊ฒ ๋ง๋ค๊น? (feat. monologg๋)
- ChatGPT? ์ด์ฐจํผ BERT ์ธ๊ฑฐ์๋.. ์ฌ๋ฐ๋ฅธ BERT ์ฌ์ฉ๋ฒ
- ๋๋ฉ์ธ ํนํ ์ธ์ด๋ชจ๋ธ์ด๋?
- General(๋ด์ค ์ผ์) vs Domain(๋ชฉ์ ํ ๋ํ, ํ๋ก) / Corpus
- Domain : In-Domain (๋ด Task ๋ฒ์ฃผ) vs Out-Domain(Task ์ด์ธ ๋ฒ์ฃผ)
- Require corpus dataset size
- Corpus dataset size ํ์ ํ๊ธฐ (์ ์ผ ์ค์.)
- ๋๋ฉ์ธ ํนํ ์ธ์ด๋ชจ๋ธ์ด๋?
- Tokenizer
- How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models (Rust et al., 2021) / ์ง์ง ํ ํฐ ๋ง์?
- ๋จ์ด ์ชผ๊ฐ๊ธฐ ์ ์์ (subword size, ํ๊ต์ X ํ๊ต_, ์)
- ์ต์ 2๊ฐ์ด์์ subword๋ก ์ชผ๊ฐ์ง๋ ๋จ์ด ๋ถํฌ
- Dataset (Domain ํ์ )
- DPR : negative likelihood loss -> triplet loss
- ํ์ต์ด ์ด๋ ค์
- LM ๊ฐ๋ฅ
- Triplet loss์ ์ํ metric learning ์ ์ฉ
- LM์ ์ฑ๋ฅ์ ๋ด๋ณด๋กํ ๋จ์ผ ์ธ์ฝ๋ ๋ฌธ์ ๋ก ๋ณํ
- Tokenizer
๋ฐ์ํ