728x90
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Vision in Transformer๋ CNN ์์ด Image Classification์ ์ํํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ํ๋์ ์ฌ๋ก์ด๋ค. ์ด์ ์๋ Transformer์ Vision์ ํฉ์น ์๋๋ ์์์ง๋ง ๋ฐฉ๋ํ ์์ ํ์ต์ ์งํํ ์ฐ๊ตฌ๋ ์์๋ค. ํ์ต์์ด ๋ง๊ณ ์์ธก Label์ด ๋ง์ ๊ฒฝ์ฐ ๊ฐ๋ ๋ฌธ์ ์ ์ ๊ฐ์ ํ๊ณ ์ฐ์ฐ ๊ฐ์(CNN ๋๋น)์ Pre-trained Model์ด๋ผ๋ ์ ์์ Attention์ ์ฅ์ ์ ๋ง์ด ํ์ฉํ๋ค.
CNN SOTA ๋๋น ๋๊ฐ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
1. CNN(Convolution Neural Network)์์ ๋ฐ์ํ๋ translation equivariance๋ฅผ Self-Attention๊ณผ Large-scale training์ผ๋ก ํด๊ฒฐ
*translation equivariance : ๊ฐ์ object์ ์ด๋ฏธ์ง๋๋ผ๋ ๋ฌผ์ฒด์ ์์น์ ๋ฐ๋ผ Input ๊ฐ์ด ๋ฌ๋ผ์ ธ Output์ด ๋์ผํ๊ฒ ๋์ค์ง ์๋ ๊ฒ์ ๋งํ๋ค.
2. ๋ชจ๋ธ ์ผ๋ฐํ ๊ฐ์
* inductive bias : ํ์ต ์์ ์ฃผ์ด์ง์ง ์์ Input์ ๋ํด ์ ํํ ์์ธก์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ์ถ๊ฐ์ ์ธ ๊ฐ์
์์ธกํด์ผํ๋ label์ด ๋ง์ ๊ฒฝ์ฐ globalํ training์ด ์ํํด์ผํ๋๋ฐ CNN์ ๊ฒฝ์ฐ local์ ์ผ๋ก ์ป๋ ์ ๋ณด๊ฐ ๋ง์ Transformer ์ฌ์ฉ (์์ธก Label์ด ์ ์ ๊ฒฝ์ฐ CNN ๊ณ์ด ์ฌ์ฉ์ด ๋ ์ฑ๋ฅ์ด ์ข๋ค.)
๋ฐ์ํ
'๐พ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NVIDIA RIVA] ngc ๋ฑ๋ก (0) | 2023.01.27 |
---|---|
[mac] VToonify [...ing] (0) | 2023.01.15 |
Tensor ๊ฐ์ง๊ณ ๋๊ธฐ [Einsum + einops] (0) | 2022.12.17 |
[Computer Vision] Image Modul Pillow import Error (0) | 2022.12.14 |
[Model Train Error] ๋ชจ๋ธ ํ์ต ์ ๋ฌดํ ๋ฃจํ /Unknown batch (0) | 2022.05.25 |