728x90
반응형
https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=123
Whisper 한국어 음성 (Ksponspeech dataset) 검증
Kspon의 eval_clean데이터를 사용해 Whisper의 성능 지표를 작성해보았다.
사용 모델 (large 모델, 추후 다양한 실험 진행)
첫 실험은 large 모델을 사용해 language identification을 한국어로 설정하지 않고 CER을 계산했다.
결과 0.42로 놀라울 정도의 성능을 보여줬다.
language identification은 99개의 Token을 Transcript 전 먼저 수행하는데 짧은 문장의 경우 language identification이 잘 작동하지 않아 다른 나라 언어로 번역되는 문제가 있다.
어디서? | On y sonne. |
그때 릴리아가 뭐 어떻게 했나? | هل تريد أن تعمل معي؟ |
Whisper는 Word Error Rate로 학습을 진행해 WER을 비교하면 더 좋은 결과가 나올 것으로 예상된다.
Model Size | CER | WER |
small | ||
medium | ||
large | 0.42 | |
small-ko | ||
medium-ko | ||
large-ko |
반응형