728x90

* BERT๋ชจ๋ธ์— ์‚ฌ์šฉ๋˜๋Š” ์‚ฌ์ „ ํ•™์Šต ์ „๋žต (Pretrained Training)

 ๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก์— ๋Œ€ํ•œ ๋ฐฉ๋ฒ•์€ ์ด์ง„ ๋ถ„๋ฅ˜๋กœ ์ง„ํ–‰ํ•œ๋‹ค. 

 

EX)

A : ์ข…ํ•ฉ์†Œ๋“์„ธ ์‹ ๊ณ ๋Š” ์–ด๋””์„œํ•˜๋‚˜์š”?

B : ํ™ˆํ…์Šค์—์„œ ํ•ฉ๋‹ˆ๋‹ค. 

 A์˜ ํ›„์† ๋ฌธ์žฅ์œผ๋กœ B๊ฐ€ ์•Œ๋งž์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ด ๊ฒฝ์šฐ isNext(True)๋กœ ํ‘œ์‹œ ํ•œ๋‹ค.

 

A : ์ข…ํ•ฉ์†Œ๋“์„ธ ์‹ ๊ณ ๋Š” ์–ด๋””์„œํ•˜๋‚˜์š”?

B : SSEM์—์„œ ํ•ฉ๋‹ˆ๋‹ค. 

 A์˜ ํ›„์† ๋ฌธ์žฅ์ด B๊ฐ€ ๋งž๋Š”์ง€ ์•Œ ์ˆ˜ ์—†๋‹ค. ์ด ๊ฒฝ์šฐ notNext(False)๋กœ ํ‘œ์‹œํ•œ๋‹ค.

 

์ด๋ ‡๊ฒŒ  is / not์œผ๋กœ ์ด์ง„ ๋ถ„๋ฅ˜๋ฅผ ์ง„ํ–‰ํ•œ๋‹ค.

 

 ํ•™์Šต ์ดˆ๊ธฐ์—๋Š” ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ(ReLU)์˜ ๊ฐ€์ค‘์น˜๊ฐ€ ์ •ํ™•ํ•˜์ง€ ์•Š์•„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ฐ˜ํ™˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค. ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ฐพ์œผ๋ฉด์„œ ๋‹ค์Œ ๋ฌธ์žฅ์— ๋Œ€ํ•œ ๊ด€๊ณ„๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํŒ๋‹จํ•˜๊ฒŒ ๋œ๋‹ค.

 

 

 

* ์‚ฌ์ „ ํ•™์Šต ์ ˆ์ฐจ

 

 MLM(Mask ์ฑ„์šฐ๊ธฐ)

 

+ NSP(๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก)์„ ํ†ตํ•ด BERT๋ฅผ ํ•™์Šต ์‹œํ‚จ๋‹ค. 

 

+ ์›œ์—… ์Šคํ… - Adam Optimizer (์ดˆ๊ธฐ์—๋Š” ํฐ ๋ณ€ํ™”๋ฅผ ์œ ๋„ํ•˜๊ณ  ํ•™์Šต ํ›„๋ฐ˜์—๋Š” ๋‚ฎ์€ ํ•™์Šต๋ฅ ๋กœ ์ž‘์€ ๋ณ€ํ™”๋ฅผ ์ฃผ์–ด ์ตœ์ ํ™”)

 

ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ GeLU(Gaussian Error Linear Unit)๋ฅผ ์‚ฌ์šฉ 

 

 

๋ฐ˜์‘ํ˜•
๋‹คํ–ˆ๋‹ค