728x90
https://github.com/openai/whisper
Paper Review
Abstract & Introduction
- 680,000 ์๊ฐ์ ๋ค๊ตญ์ด ํ์ต์ ์งํ ์ fine-tuning ์์ด zero-shot transfer benchmark ์์ค์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค. ๋ํ ์ฌ๋์ ๊ทผ์ ํ accuracy์ robustness๋ฅผ ๊ฐ์ง๊ฒ ๋จ.
- ๊ธฐ์กด์ ๋ฐ์ดํฐ ํ์ต ๋ฐฉ์์ Wave2Vec์ ์ด์ฉํ ๋น์ง๋ ํ์ต ๋ฐฉ์์ด๋ค. ์ฌ๋์ labeling ์์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์์ฐํ์ฌ ๋ง์ ์์ ๋ฐ์ดํฐ ํ์ต์ ์งํ์ํค๋ฏ๋ก data setting์ ๋ํ ๋ถ๋ด์ ์ค์๋ค. ํ์ง๋ง ์ด๋ฌํ ํ์ต ๋ฐฉ๋ฒ์ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ๋ํ ํํ๋ง ์ข์ ๋ฟ unsupervised data์ ๋ํ decoder mapping์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค.
- ๊ธฐ์กด์ ๋ฐฉ๋ฒ์ fine-tuning ์ ๋ณต์กํ ์์ ์ ์ค๋ฌด์๊ฐ ์งํํด์ผํ๋ค.(risk ์ถ๊ฐ, fine-tuning์ ์ฑ๋ฅ์ด ์ ์ ๋์ฌ ์๋ ์์)
- ๋จธ์ ๋ฌ๋ method๋ ๊ฐ์ ๋ฐ์ดํฐ์ ๋ํ ํ์ต ํจํด์ ์ฐพ๋๋ค. ๊ทธ๋ฌ๋ outlier(brittle, spurious)์ ์ ์์น์ ๋ค๋ฅธ ๋ฐ์ดํฐ์
์ ์ํด ํ์ต์ด ์๋์ง ์๋๋ค.
- Radford et al
- ImageNet classification์์ ๊ฐ์ ์ด๋ฏธ์ง์ ๋ํ ํด๋์ค๋ฅผ 7๊ฐ์ง ๋ค๋ฅธ ๋ถ๋ฅ๋ก ์ธ๋ถํํ์ ๋ acc 9.2% ์ฆ๊ฐ ์์ผฐ๋ค.
- Radford et al
- large-scale์ ๋ํ ํธํฅ์ ๊ฐ์ง dataset์ ํ์ต ์ํค๊ณ ๋ค์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ํ์ต์ํฌ ๋ high-quality dataset์ ๋ช ๋ฐฐ๋ ๋๊ณ ์ด์ ํ์ต๋ณด๋ค ์ ์ ์์ ํ์ต์ ํ๊ฒ ๋๋ค. (์ฌ๋ฐ๋ฅธ ํ์ต ๋ฏธ๋ฏธ)
- OpenAI ์ฐ๊ตฌ์ง์ ๋ฐ์ดํฐ inbalanced ๋ฌธ์ ๋ฅผ ์ขํ๊ธฐ ์ํด 68,000์๊ฐ์ labeling์ด ๋ ์ค๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
- Whisper: *weakly supervised speech recognition
- ์์ด๋ฟ๋ง์๋๋ผ 117,000 h 96๊ฐ์ ์ธ์ด dataset, 125,000h X→en ์ ์๋ฌธ ๋ณํ ๋ฒ์ญ dataset ํ์ต
- * large-model์ ์์ด ๋ค๊ตญ์ด ํ์ต์ ๋จ์ ์ด๋ ์ฅ์ ๋ ๋ค ์๋ค.
- ์ต๊ทผ weakly supervised pre-training์ด ์ ํ๊ฐ๋จ์ ์์ด lage-scale dataset์ ํ์ต ์ self-supervision ๋๋ self-trainig์ ๋ํ ๊ณ ์ฐฐ์ด ํ์ํ๋ค.
- ์์ฑ ์ธ์ด ๋ชจ๋ธ๋ง ์ฐ๊ตฌ์ ๊ธฐ์ฌํ๊ธฐ ์ํด OpenAI whisper๋ฅผ ๊ณต๊ฐํจ.
๋ฐ์ํ
'๐พ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Whisper] Kspon Valid --- (2) CER (0) | 2023.03.13 |
---|---|
[Whisper] Koreanspon Valid (0) | 2023.03.10 |
[NVIDIA RIVA ASR] ์ค์น ๊ฐ์ด๋ (feat.nvidia-riva-sdk) (0) | 2023.02.23 |
[from numba.np.ufunc import _internalSystemError: initialization of _internal failed without raising an exception] numpy version Error (0) | 2023.02.23 |
[ASR, ] Deepspeech2 (0) | 2023.02.22 |