https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=123
Whisper ํ๊ตญ์ด ์์ฑ (Ksponspeech dataset) ๊ฒ์ฆ
Kspon์ eval_clean๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด Whisper์ ์ฑ๋ฅ ์งํ๋ฅผ ์์ฑํด๋ณด์๋ค.
์ฌ์ฉ ๋ชจ๋ธ (large ๋ชจ๋ธ, ์ถํ ๋ค์ํ ์คํ ์งํ)
์ฒซ ์คํ์ large ๋ชจ๋ธ์ ์ฌ์ฉํด language identification์ ํ๊ตญ์ด๋ก ์ค์ ํ์ง ์๊ณ CER์ ๊ณ์ฐํ๋ค.
๊ฒฐ๊ณผ 0.42๋ก ๋๋ผ์ธ ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
language identification์ 99๊ฐ์ Token์ Transcript ์ ๋จผ์ ์ํํ๋๋ฐ ์งง์ ๋ฌธ์ฅ์ ๊ฒฝ์ฐ language identification์ด ์ ์๋ํ์ง ์์ ๋ค๋ฅธ ๋๋ผ ์ธ์ด๋ก ๋ฒ์ญ๋๋ ๋ฌธ์ ๊ฐ ์๋ค.
์ด๋์? | On y sonne. |
๊ทธ๋ ๋ฆด๋ฆฌ์๊ฐ ๋ญ ์ด๋ป๊ฒ ํ๋? | ูู ุชุฑูุฏ ุฃู ุชุนู ู ู ุนูุ |
Whisper๋ Word Error Rate๋ก ํ์ต์ ์งํํด WER์ ๋น๊ตํ๋ฉด ๋ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ๊ฒ์ผ๋ก ์์๋๋ค.
Model Size | CER | WER |
small | ||
medium | ||
large | 0.42 | |
small-ko | ||
medium-ko | ||
large-ko |