Robust Speech Recognition via Large-Scale Weak Supervision
*large model์ 2023.1 large-v2์ ๋์ผํ๊ฒ ๋ฐ๋
KsponSpeech ๋ฐ์ดํฐ๋ ์งง์ ๋ฐํ์ audio๋ฅผ ์ฃผ๋ก ๊ตฌ์ฑ๋์ด์๋ค.
Whisper๋ 99๊ฐ์ ํ ํฐ์ผ๋ก ์ฒ์ ๋ฐํ์ ๋ํ ์ธ์ด ์์ธก(language identification)์ ์ํํ๋ค.
ํ์ง๋ง ๋๋ฌด ์งง์ ๋ฐํ ๊ฐ์ ๊ฒฝ์ฐ whisper๊ฐ ๋ค๋ฅธ ์ธ์ด๋ก ์์ธกํด translate ์์ฒด๊ฐ ํ๋ ค๋ฒ๋ ค CER์ด ์ฆ๊ฐํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
language Configure์ korean์ผ๋ก ์ค์ ํ๋ฉด language identification์ ์ํํ์ง ์๊ณ ๋ฐ๋ก transcript๋ก ์์ธกํด ๋ ์ข์ ์ฑ๊ณผ๊ฐ ๋ฌ๋ค.
model size๋ ์์ธก๊ณผ ์์ ์๊ด ๊ด๊ณ๋ฅผ ๋ด๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์ง๋ง Whisper๋ ๋ฐํ์ ๋ํ ๋ฒ์ญ์ ํ๋ฒ๋ ์ํํ๊ธฐ ๋๋ฌธ์ CER์ด ๋ค์ ํฌ๊ฒ ๋์ฌ์ ์์ WER์ ๋ฎ์ ๊ฒ์ผ๋ก ์์ธก
'๐พ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Whisper] Robust Speech Recognition via Large-Scale Weak Supervision- (2) (0) | 2023.03.19 |
---|---|
[Whisper] Robust Speech Recognition via Large-Scale Weak Supervision- (1) (0) | 2023.03.18 |
[Whisper] Koreanspon Valid (0) | 2023.03.10 |
[Whisper] (1) - Abstract & Introduction (0) | 2023.03.06 |
[NVIDIA RIVA ASR] ์ค์น ๊ฐ์ด๋ (feat.nvidia-riva-sdk) (0) | 2023.02.23 |