[Transformer] Self-Attension ์
ํ ์ดํ
์
(0)
ยท
๐พ Deep Learning
input#1์ ๊ธฐ์ค์ผ๋ก #2, #3์์ ๊ด๊ณ๋ฅผ score๋ก ๋ง๋ค๊ณ output #1์ ๋ง๋ ๋ค. ๊ทธ๋ฆฌ๊ณ #2์ #1, #3์์ score๋ฅผ ๊ตฌํ๊ณ ๋ค์ #์ผ๋ก ๋์ด๊ฐ๋ฉด์ score๋ฅผ ๊ตฌํ๋ค. ์ด ์ ์ score๋ฅผ ๋ชจ์ attention map์ ๋ง๋ ๋ค. 1. Illustrations The illustrations are divided into the following steps: Prepare inputs Initialise weights Derive key, query and value Calculate attention scores for Input 1 Calculate softmax Multiply scores with values Sum weighted values to get Output 1 ..