728x90
반응형
https://github.com/openai/whisper
Paper Review
Abstract & Introduction
- 680,000 시간의 다국어 학습을 진행 시 fine-tuning 없이 zero-shot transfer benchmark 수준의 결과를 얻을 수 있다. 또한 사람에 근접한 accuracy와 robustness를 가지게 됨.
- 기존의 데이터 학습 방식은 Wave2Vec을 이용한 비지도 학습 방식이다. 사람의 labeling 없이 대규모 데이터셋을 생산하여 많은 양의 데이터 학습을 진행시키므로 data setting에 대한 부담을 줄였다. 하지만 이러한 학습 방법은 고품질 데이터에 대한 표현만 좋을 뿐 unsupervised data에 대한 decoder mapping은 성능이 떨어진다.
- 기존의 방법은 fine-tuning 시 복잡한 작업을 실무자가 진행해야한다.(risk 추가, fine-tuning시 성능이 잘 안 나올 수도 있음)
- 머신 러닝 method는 같은 데이터에 대한 학습 패턴을 찾는다. 그러나 outlier(brittle, spurious)와 정상치와 다른 데이터셋에 의해 학습이 잘되지 않는다.
- Radford et al
- ImageNet classification에서 같은 이미지에 대한 클래스를 7가지 다른 분류로 세분화했을 때 acc 9.2% 증가 시켰다.
- Radford et al
- large-scale에 대한 편향을 가진 dataset을 학습 시키고 다시 새로운 데이터를 학습시킬 때 high-quality dataset의 몇 배나 되고 이전 학습보다 적은 양의 학습을 하게 된다. (올바른 학습 미미)
- OpenAI 연구진은 데이터 inbalanced 문제를 좁히기 위해 68,000시간의 labeling이 된 오디오 데이터를 사용했다.
- Whisper: *weakly supervised speech recognition
- 영어뿐만아니라 117,000 h 96개의 언어 dataset, 125,000h X→en 의 영문 변환 번역 dataset 학습
- * large-model에 있어 다국어 학습은 단점이나 장점 둘 다 없다.
- 최근 weakly supervised pre-training이 저평가됨에 있어 lage-scale dataset을 학습 시 self-supervision 또는 self-trainig에 대한 고찰이 필요하다.
- 음성 언어 모델링 연구에 기여하기 위해 OpenAI whisper를 공개함.
반응형
'Deep Learning' 카테고리의 다른 글
[Whisper] Kspon Valid --- (2) CER (0) | 2023.03.13 |
---|---|
[Whisper] Koreanspon Valid (0) | 2023.03.10 |
[NVIDIA RIVA ASR] 설치 가이드 (feat.nvidia-riva-sdk) (0) | 2023.02.23 |
[from numba.np.ufunc import _internalSystemError: initialization of _internal failed without raising an exception] numpy version Error (0) | 2023.02.23 |
[ASR, ] Deepspeech2 (0) | 2023.02.22 |