https://arxiv.org/abs/2212.04356
Robust Speech Recognition via Large-Scale Weak Supervision
Abstract & Introduction
680,000 ์๊ฐ์ ๋ค๊ตญ์ด ํ์ต์ ์งํ ์ fine-tuning ์์ด zero-shot transfer benchmark ์์ค์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค. ๋ํ ์ฌ๋์ ๊ทผ์ ํ accuracy์ robustness๋ฅผ ๊ฐ์ง๊ฒ ๋จ.
๊ธฐ์กด์ ๋ฐ์ดํฐ ํ์ต ๋ฐฉ์์ Wave2Vec์ ์ด์ฉํ ๋น์ง๋ ํ์ต ๋ฐฉ์์ด๋ค. ์ฌ๋์ labeling ์์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์์ฐํ์ฌ ๋ง์ ์์ ๋ฐ์ดํฐ ํ์ต์ ์งํ์ํค๋ฏ๋ก data setting์ ๋ํ ๋ถ๋ด์ ์ค์๋ค. ํ์ง๋ง ์ด๋ฌํ ํ์ต ๋ฐฉ๋ฒ์ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ๋ํ ํํ๋ง ์ข์ ๋ฟ unsupervised data์ ๋ํ decoder mapping์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค.
๊ธฐ์กด์ ๋ฐฉ๋ฒ์ fine-tuning ์ ๋ณต์กํ ์์ ์ ์ค๋ฌด์๊ฐ ์งํํด์ผํ๋ค.(risk ์ถ๊ฐ, fine-tuning์ ์ฑ๋ฅ์ด ์ ์ ๋์ฌ ์๋ ์์)
๋จธ์ ๋ฌ๋ method๋ ๊ฐ์ ๋ฐ์ดํฐ์ ๋ํ ํ์ต ํจํด์ ์ฐพ๋๋ค. ๊ทธ๋ฌ๋ outlier(brittle, spurious)์ ์ ์์น์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ์ํด ํ์ต์ด ์๋์ง ์๋๋ค.
Radford et al
- ImageNet classification์์ ๊ฐ์ ์ด๋ฏธ์ง์ ๋ํ ํด๋์ค๋ฅผ 7๊ฐ์ง ๋ค๋ฅธ ๋ถ๋ฅ๋ก ์ธ๋ถํํ์ ๋ acc 9.2% ์ฆ๊ฐ ์์ผฐ๋ค.
large-scale์ ๋ํ ํธํฅ์ ๊ฐ์ง dataset์ ํ์ต ์ํค๊ณ ๋ค์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ํ์ต์ํฌ ๋ high-quality dataset์ ๋ช ๋ฐฐ๋ ๋๊ณ ์ด์ ํ์ต๋ณด๋ค ์ ์ ์์ ํ์ต์ ํ๊ฒ ๋๋ค. (์ฌ๋ฐ๋ฅธ ํ์ต ๋ฏธ๋ฏธ)
OpenAI ์ฐ๊ตฌ์ง์ ๋ฐ์ดํฐ inbalanced ๋ฌธ์ ๋ฅผ ์ขํ๊ธฐ ์ํด 68,000์๊ฐ์ labeling์ด ๋ ์ค๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
- Whisper: *weakly supervised speech recognition
์์ด๋ฟ๋ง์๋๋ผ 117,000 h 96๊ฐ์ ์ธ์ด dataset, 125,000h X→en ์ ์๋ฌธ ๋ณํ ๋ฒ์ญ dataset ํ์ต
์ผ๋ฐ์ ์ผ๋ก large-model์ ์์ด ๋ค๊ตญ์ด ํ์ต์ ๋จ์ ์ด๋ ์ฅ์ ๋ ๋ค ์๋ค.
์ต๊ทผ weakly supervised pre-training์ด ์ ํ๊ฐ๋จ์ ์์ด lage-scale dataset์ ํ์ต ์ self-supervision ๋๋ self-trainig์ ๋ํ ๊ณ ์ฐฐ์ด ํ์ํ๋ค.
์์ฑ ์ธ์ด ๋ชจ๋ธ๋ง ์ฐ๊ตฌ์ ๊ธฐ์ฌํ๊ธฐ ์ํด OpenAI whisper๋ฅผ ๊ณต๊ฐํจ.
Approach
Data Processing
Trend์ ๋ฐ๋ผ ML system์ web-scale text๋ฅผ ์ฌ์ฉํ๊ณ ์ต์ํ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ฅผ ์งํ
๊ธฐ์กด์ ๋ฐฉ์๊ณผ ๋ค๋ฅด๊ฒ Significant standardization(ํ์คํ) ์์ด seq2seq model๋ก audio data์ transcript pair ๋ฐ์ดํฐ๋ฅผ ๋ง๋ฆ
Naturalistic transcriptions์ ์์ฑํ๊ธฐ ์ํ Text ์ ๊ทํ๋ฅผ ํ์ง ์์ pipeline์ด ๊ฐ์ํ๋๋ค.
๊ตฌ์ถ ๊ฒฐ๊ณผ environments, recording setups, speakers, languages ๋ณ ๋ค ์ํ ๋ฐ์ดํฐ์ ์ด ๊ตฌ์ถ๋์๋ค.
๋ค์ํ audio quality๋ model ํ์ต์ ๋์์ด ๋์ง๋ง transcript quality์๋ ๊ฑฐ์ ๋์ง ์๋๋ค.
๋ฐ์ดํฐ ๊ฒ์ฆ ๊ฒฐ๊ณผ, ์ ๋ฐ์ดํฐ์ ์์ค ์ดํ์ ๋ฐ์ดํฐ๋ค์ด ๋ง์ด ๋ฐ๊ฒฌ๋์๋ค.
์ธํฐ๋ท์ ์๋ ๋ง์ transcript ๋ฐ์ดํฐ๋ ์ค์ ๋ก ์ฌ๋์ด ์์ฑํ ๊ฒ์ด ์๋๋ผ ๊ธฐ์กด ASR์ ๊ฒฐ๊ณผ๋ฌผ์ด ๋ง์๊ณ ์ธ๊ฐ๊ณผ ๊ธฐ๊ณ๊ฐ ์์ฑํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ๊ฒฝ์ฐ ํ์ต ์ฑ๋ฅ์ ํฌ๊ฒ ์ ํ์ํจ๋ค๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๊ฐ ์๋ค. (https://arxiv.org/abs/2109.07740)
๊ธฐ๊ณ์์ฑ ๋ถ๋ฅ๋ฅผ ์ํด heuristics ๊ฐ๋ฐ / ๊ธฐ์กด์ ๋ง์ ASR์ ๋ณต์กํ ๊ตฌ๋์ (. , ! ?) ๋จ๋ฝ๊ณผ ๊ฐ์ ์์ ๊ณต๋ฐฑ, ๋๋ฌธ์ ๋ฑ ์ค๋์ค vocab์ ์ฐ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ์ ๊ทํ๋ฅผ ํตํ ์ ํ๋ ์งํฉ์ ๋ฌธ์์ธ์ด๋ง ์ฌ์ฉํ๋ค.
๋ง์ ASR ์์คํ ์๋ ์ด๋ ์ ๋์ ํ ์คํธ ์ ๊ทํ๊ฐ ์งํ๋์ง๋ง ๋จ์ํ๊ฑฐ๋ rule-base๋ก ์ฒ๋ฆฌํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
Language detector(VoxLingua107, proto-type dataset) ์ฌ์ฉ
- CLD2์ ๋ฐ๋ผ ์์ฑ ์ธ์ด๊ฐ script ๊ฒฐ๊ณผ์ ์ผ์นํ๋์ง ๋น๊ต (์ผ์นํ์ง ์์ผ๋ฉด train ์ ์ธ)
- X->en (์์ฑ ๋ฒ์ญ ํ๋ จ ์์ )๋ก ๋ฐ์ดํฐ ์ธํธ์ ์ถ๊ฐํ๋ค.
- fuzzy de-duping์ ์ฌ์ฉํด transcript๋ฅผ ํ๋ฒ ๋ ์ ์ (์ค๋ณต ๋ฐฉ์ง, ๊ธฐ๊ณ ์์ฑ ๋ฐ์ดํฐ ์ ๊ฑฐ)
- ์ค๋์ค ํ์ผ 30์ด segment๋ก ๋๋๊ณ ํด๋น ์๊ฐ ๋ด์์ ๋ฐ์ํ๋ transcript ํ์ ์งํฉ๊ณผ pair ์งํ (audiofile_1 – transcript_1, audiofile_2 – transcript_2 ..)
์์ฑ์ด ์๋ ๋ฐ์ดํฐ๋ ์์ฑ ํ๋ ๊ฐ์ง๋ฅผ ์ํ ํ๋ จ ๋ฐ์ดํฐ๋ก ํ์ฉ
์ด ๊ณผ์ ์์ ๋ฐ์ดํฐ ์ค๋ฅ์จ์ ์ง๊ณํ๊ณ ํ์ง์ด ๋ฎ์ ๋ฐ์ดํฐ๋ฅผ ์๋ณํ๊ณ ์ ๊ฑฐ, ์๋์์
์คํฌ๋ฆฝํธ์ ์์ฑ ์ ๋ ฌ์ด ์๋ชป๋์๊ฑฐ๋ ํํฐ๋ง์ ๊ฑธ๋ฆฌ์ง ๋ชปํ ์ด์ ๋ฐ์ดํฐ ๋๋ ๋ฐ๊ฒฌ
์ค์ผ ๋ฐฉ์ง๋ฅผ ์ํด ๋ฐ์ดํฐ ์ค๋ณต ์ ๊ฑฐ + TED-LIUM 3 ์์ค์ ์ ์ฒ๋ฆฌ ์งํ
Model
์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ํผ์ ์ด ๊ฐ์ง ์๊ฒ ๊ธฐ์ฑ ๋ชจ๋ธ ์ํคํ ์ณ๋ฅผ ์ฌ์ฉ(๋นํ ์์ ์๋ก์ด ๋ชจ๋ธ์ด ์๋ ์ ์ฒ๋ฆฌ๋ฅผ ์ค์ ์ผ๋ก ๋ค๋ฃธ, human detect filter)
๊ฒ์ฆ๋ ์ํคํ ์ฒ Transformer(Attention Is All You Need) encoder-decoder๋ฅผ ์ฌ์ฉํจ.
๋ชจ๋ ์ค๋์ค๋ 16,000HZ๋ก resampling -> 80 channel -> log-mel spectrogram
0.010 sec ๊ฐ๊ฒฉ์ผ๋ก ํํ๋ mel spectogram์ 25mm/sec ๋จ์๋ก channel ๊ณ์ฐ (25 mm/sec - 10 mm/sec )
Normalization - Standardization -1~1
Conv1D(filter=3) + Conv1D(filter=3, stride=2) & GELU
Sinusoidal position embeddings (=positional encoding)
N x encoder Block -> N x decoder Block
Multitask Format
๋ถ์ ๋ audio๊ฐ ์ด๋ค ๋จ์ด๊ฐ ๋ฐํ๋์๋์ง ์์ธกํ๋ ๊ฒ์ด speech recognition ๋ถ์ผ์์ ์ฃผ๋ก ๋ค๋ฃจ๋ ํต์ฌ ๋ฌธ์ ์ด์ง๋ง, ์ด ๋ฌธ์ ๋ง์ด ์๋ ๊ฒ์ ์๋๋ค.
ํ speech recognition์๋ ๊ฐ์ ํด์ผํ ๋ถ๋ถ์ด ๋ ์๋ค.
1. voice activity detection (์์ฑ ํ๋ ๊ฐ์ง)
2. speaker diarization (ํ์ ๋ถํ )
3. inverse text normalization (ITN, ์ผ์ญ์ผ๋ถ -> 31๋ถ)
์ด ๋ฌธ์ ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ ๋ชจ๋ธ์ด ์๋์ ์ผ๋ก ๋ณต์กํด ์ง๋ค.
Whisper๋ ๋จ์ผ ๋ชจ๋ธ๋ก ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํจ
๋ชจ๋ธ์ ์ธํฐํ์ด์ค์์ ์ํํ๋ Task
1. Transcription (์ ์ฌ)
2. Translation (๋ฒ์ญ)
3. voice activity detection (์์ฑ ํ๋ ๊ฐ์ง)
4. Alignment (์์น ์กฐ์ )
5. language identification (์ธ์ด ์๋ณ)
์ด ๊ฒฝ์ฐ ๋จ์ผ ๋ชจ๋ธ์์ one to many ์์ ์ด ๋ถ๊ฐํผํด resource๊ฐ ํ์๋ก ํ์ํ๋ค.
์กฐ๊ฑด๋ถ ์ ๋ณด(conditional information)๋ฅผ input token์ผ๋ก Decoder์ ์ ๋ฌ
Training Details
Experiments
Zero-shot Evaluation
Evaluation Metrics
Speech recognition ์ฐ๊ตฌ์์ ํต์ ์ฌ์ฉํ๋ metric WER(word error rate) ์ฌ์ฉ
* ๊ทธ๋ฌ๋ WER์ string edit distance(levenshtein distance)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฐจ์ด๋ฅผ ๊ณ์ฐํด transcript์ ํน์ฑ์ด ๋ฌด์๋จ
* ์ฌ๋์ด ์ ํํ๋ค๊ณ ํ๋จํ๋ transcript๋ฅผ WER์ ์์ ์ฐจ์ด๋ก ํฌ๊ฒ ๊ณ์ฐํ ๊ฐ๋ฅ์ฑ์ด ๋์
* ๋ชจ๋ transcript์์ ๋ฌธ์ ๊ฐ ๋์ง๋ง ํน์ dataset transcript์์ whisper์ ๊ฐ์ zero-shot ๋ชจ๋ธ์์ ํนํ ์ฌ๊ฐํ๊ฒ ์์ฉ
์ธ๊ฐ์ ํ๋จ๊ณผ ๋ ์ ๋ง๋ metric์ ๊ฐ๋ฐํ๋ ๊ฒ ๋ํ ํ๋์ ์ฐ๊ตฌ ๋ถ์ผ์ด๋ค. ํ์ง๋ง ์์ฑ ์ธ์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๊ฒ์ ์์ง ์์
WER ๊ณ์ฐ ์ ์ text๋ฅผ ๊ด๋ฒ์ํ๊ฒ ํ์คํ(standardization)ํ์ฌ ์ ๋ต label๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํจ
Whisper์ text normalizer(4.4)๋ ๋ฐ๋ณต์ ์ธ ์๋ manual์ ํตํด ๊ฐ๋ฐ
WER์ด ์ฌ์ํ ์ฐจ์ด๋ก ์ธํด Whisper ๋ชจ๋ธ์ loss๋ฅผ ์ฌ๋ฆฌ๋ ๊ฒ์ ํจํด์ ํตํด ์ฐพ์
๋ช ๋ช dataset์์ ๊ณต๋ฐฑ์ด ์๋ ๋จ์ด์ ์ถ์ฝ์ด๋ฅผ ๋ถ๋ฆฌํ๋ ๊ฒฐ๊ณผ WER 50% ํ๋ฝ์ ๊ด์ฐฐ
์ฝ๋ ๊ณต๊ฐ (https://github.com/openai/whisper/tree/main/whisper/normalizers)
English Speech Recognition
Multi-lingual Speech Recognition
๋ค๊ตญ์ด ์์ฑ ์ธ์์ ๋น๊ตํ๊ธฐ ์ํด ๋๊ฐ์ง low-data benchmark ์ฌ์ฉ
- MLS(Multilingual LibriSpeech) (Pratap et al)
- VoxPopuli(Wang et al)
Whisper zero-shot setting์์ MLS, outperforming XLS-R, mSLAM, Maestro dataset์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์
- Text standardizer๋ฅผ ์ฌ์ฉํด SOTA ๋ชจ๋ธ๊ณผ ๋น๊ตํ ์ ์๋ค๋ ๊ฒ์ ์ ์
- VoxPopuli dataset์์ whisper๋ ์ด์ ์์
๋ณด๋ค ์ฑ๋ฅ์ด ํ์ ํ ๋จ์ด์ง, VP-10K+FT์์๋ง ์ข์ ์ฑ๋ฅ
- Voxpopuli์์ Whisper ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฎ๊ฒ ๋์จ ๊ฒ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ด unsupervised pre-training data ๋ ์ด dataset์ ์ฌ์ฉํ๊ณ dataset ํ์ต์ ์์ด supervised data๋ฅผ ๋ ๋ง์ด ์ฌ์ฉํด fine-tuning์ ์ด์ ์ด ์์ ๊ฒ์ด๋ผ ๋ด
- MLS๋ ์ธ์ด๋น 10์๊ฐ์ train data๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋ฐ๋ฉด, VoxPopuli๋ ์ธ์ด๋น ํ๊ท ํ์ต ๋ฐ์ดํฐ์ ์์ด ์ฝ 10๋ฐฐ ๋ ๋ง๋ค.
์ด ๋ benchmark๋ 15๊ฐ์ ์ธ์ด๋ง ํฌํจํ๋ฉฐ, ๋๋ถ๋ถ์ด ์ธ๋-์ ๋ฝ๊ถ์ ์ํ๊ณ ๋ฆฌ์์ค๊ฐ ๋ง์ด ํ์ํ ์ธ์ด์ด๊ธฐ ๋๋ฌธ์ ๋ฒ์๊ฐ ์ข์
Whisper๋ฅผ ์ข๋ broadํ๊ฒ ์ฑ๋ฅ ์ธก์ ์ ์ํด Fleurs dataset์ ์ฌ์ฉ
- ์ฃผ์ด์ง Train data์ ์๊ณผ zero-shot downsteam performance์ ๊ด๊ณ๋ฅผ ์ฐ๊ตฌ
- Fig3 log(WER)์ log(์ธ์ด๋ณ ํ์ต ๋ฐ์ดํฐ์ ์) ๊ด๊ณ๋ฅผ ๋ณด๋ฉด coefficient 0.83์ผ๋ก ๊ฐํ ์๊ด ๊ด๊ณ๊ฐ ์์์ ์ ์ ์์
- ํ์ต data๊ฐ 16๋ฐฐ ์ฆ๊ฐ ํ ๋๋ง๋ค WER์ด ์ ๋ฐ์ผ๋ก ์ค์ด๋ค ๊ฒ์ผ๋ก ์ถ์
- ๋ํ ์์ธก์ด ๊ฐ์ฅ ๋จ์ด์ง๋ ํ๋ธ๋ฆฌ์ด(HE), ํ๋ก๊ทธ์ด(TE), ์ค๊ตญ์ด(ZH), ํ๊ตญ์ด(KO) ๋ฑ์ ์ธ๋-์ ๋ฝ ์ธ์ด์ ๋ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๊ณ unique scripts๋ฅผ ๊ฐ์ง ๊ฒ์ผ๋ก ๋ํ๋จ
- Linguastic distance(์ธ์ด์ ๊ฑฐ๋ฆฌ)
- Our byte level BPE tokenizer poor match (Tokenizer ์ฑ๋ฅ์ฐจ์ด)
- Variations data quality (๋ฐ์ดํฐ ํ์ง ์ฐจ์ด)
Translation
CoVoST2 dataset(X→en)์ ์ฑ๋ฅ์ ์ธก์ ํด whisper์ translate performance ์ฐ๊ตฌ
์ ํ language detect ๋ชจ๋ธ Maestro, mSLAM, XLS-R ๋น๊ต
Whisper๋ CoVoST2 dataset์ ์ฌ์ฉํ์ง ์๊ณ zero-shot 29.1 BLEU achieve
- Whisper๋ 68,000 ์๊ฐ์ dataset(X→en) ํ์ต์ด๋ CoVoST2 861์๊ฐ๊ณผ ๋น๊ตํ๋ฉด ํฐ ์ฐจ์ด๊ฐ ์์
Whisper์ ๊ฒ์ฆ์ zero-shot์ด๊ธฐ ๋๋ฌธ์ CoVoST2์์๋ ์ ์ resource๋ก mSLAM๋ณด๋ค 6.7 BLEU ๊ฐ์ ๋จ
High resource model์์๋ Maestro, mSLAM๋ณด๋ค ๊ฐ์ ๋์ง ์์์
Language identification performance
- Fleurs dataset ๊ฒฐ๊ณผ whisper๋ Fleurs์ 20๊ฐ ์ธ์ด๊ฐ ์ ์ธ๋จ์ ๋ฐ๋ผ ์ ํ ๋ชจ๋ธ์ ๋นํด ๋ฎ๊ฒ ๋์ด
์ธ์ด๋ณ translate train data์ ์๊ณผ Fleurs zero-shot BLEU ์ ์ ๊ฐ์ ์๊ด๊ด๊ณ ์๊ฐํ
Train data์ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ฐ์ ๋๋ ์ถ์ธ๋ ๋ถ๋ช ํ์ง๋ง, WER์ ์๊ด๊ด๊ณ์ ๋น๊ตํ์ ๋ 0.83๋ณด๋ค ํจ์ฌ ๋ฎ์ 0.24์ ๋ถ๊ณผ
- ๋ถ๋ถ์ ์ผ๋ก ์์ฑ ์ธ์ด ์๋ณ ์ค๋ฅ๋ก ์ธํด train data๊ฐ noise๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ธ ๊ฒ์ผ๋ก ์ถ์
- ์จ์ผ์ฆ(CY) ์ธ์ด๋ฅผ ์๋ฅผ ๋ค๋ฉด 9000์๊ฐ์ translate data๋ฅผ train ํ์์๋ ์ ์ฒด translate ๋ณด๋ค ๋ฎ์ 13 BLEU performance๋ฅผ ๋ณด์ด๊ณ ์ ์ฒด 4์๋ฅผ ์ฐจ์งํ๋ฉฐ ํ๋์ค์ด, ์คํ์ธ์ด, ๋ฌ์์์ด ๋ฑ ์ธ๊ณ์์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ์ธ์ด๋ณด๋ค ์์ ์์
- ์จ์ผ์ฆ ์ธ์ด๋ฅผ ์กฐ์ฌํด๋ณด๋ ๋๋ถ๋ถ์ data์ ์์ด caption์ด ์๊ณ indentification system์ ์ํด ์์ด audio๊ฐ ์จ์ผ์ฆ ์ธ์ด์ ์๋ชป ํฌํจ๋์ด์๋ data๊ฐ ์์
Language Identification
Evaluate dataset : Fleurs
pretrained ๋์ด ์์ง ์์ผ๋ฏ๋ก SOTA ๋๋น 13.6% ๋ฎ์ ์ฑ๋ฅ ๋ณด์
Whisper๋ Fleues์ ํฌํจ๋ 102๊ฐ์ ์ธ์ด ์ค 20๊ฐ์ ์ธ์ด๊ฐ ํฌํจ๋์ด ์์ง ์์
๋ค๋ฅธ SOTA ๋ชจ๋ธ์ด 80.4% ์ํ ์ ์ ๋์๊ธฐ ๋๋ฌธ์ 20๊ฐ ์ธ์ด๋ฅผ ์ ์ธํ๊ณ ๋ค๋ฅธ ๋ชจ๋ธ๊ณผ ๋น๊ตํ๊ธฐ๋ ํ๋ฆ
Robustness to Additive Noise
Test Dataset : LibriSpeech
Model : 14๊ฐ์ LibriSpeech Trained Model, noise robustness of Whisper models
Audio Degradation Toolbox(์ค๋์ค ํ์ง ์ ํ) program์ ์ฌ์ฉ
White noise & pub noise ์ถ๊ฐ
- Pub noise : ์ฃผ๋ณ ์์๊ณผ ๋ถํ์คํ ๋ํ, ์๋๋ฌ์ด ํ๊ฒฝ, ๋ ์คํ ๋์ด๋ ํ ํ๊ฒฝ
14๊ฐ์ ๋ชจ๋ธ ์ฌ์ด 12๊ฐ์ ๋ชจ๋ธ์ LibriSpeech์ ๋ํด pre-trainded model ๋๋ fine-tuning ๋ ๋ชจ๋ธ์ด๋ฉฐ, ๋๋จธ์ง ๋๊ฐ์ ๋ชจ๋ธ์ SpeechStew์ ๊ฐ์ ์ ํ ๋ชจ๋ธ๊ณผ ์ ์ฌํ ํผํฉ dataset์ ๋ํด ํ์ต๋ NVIDIA STT models์
์ฃผ์ด์ง signal ๋๋น signal-to-noise ๋น์จ(SNR)์ signal power๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ณ์ฐ๋จ
- SNR = P_sig/P_noise
Noise(SNR) ์ฆ๊ฐ์ ๋ฐ๋ฅธ WER
- ์ ์ก์(40dB SNR)์์ whisper ๋ฅ๊ฐ(LibriSpeech ๊ธฐ๋ฐ train)
- 14๊ฐ์ ๋ชจ๋ธ์ 10dB ๋ฏธ๋ง์์ Whisper๋ณด๋ค ์ฑ๋ฅ์ด ๋๋น ์ง
- ์ด๋ whisper์ Robustness to Additive Noise ์ฑ๋ฅ
Long-form Transcription
Chunk size : 30์ด (์ด๊ณผ ๋ฐ์ดํฐ ์ฌ์ฉ ๋ถ๊ฐ)
Chunk size์ ๋ํ ISSUE
- ์งง์ ๋ฐํ audio๋ก ๊ตฌ์ฑ๋ train dataset์์๋ ๋ฌธ์ ๊ฐ ๋์ง ์์ง๋ง ๋ช๋ถ ๋ช ์๊ฐ ๋ถ๋์ audio๋ฅผ ํ ์คํธ๋ก ๋ณํํด์ผํ๋ ์์ ์์๋ ๋ฌธ์ ๊ฐ ๋ฐ์
- 30์ด ๋ถ๋์ audio segment๋ฅผ ์ฐ์์ผ๋ก transcriptํ๊ณ model์ด ์์ธกํ timestamp์ ๋ฐ๋ผ window๋ฅผ ์ด๋ํ๋ ๋ฐฉ์์ผ๋ก ๊ธด audio์ buffering์ transcriptํ๋ ์ ๋ต
๊ธด audio๋ฅผ ์์ ์ ์ผ๋ก transcriptํ๊ธฐ ์ํด ๋ชจ๋ธ ์์ธก์ ๋ฐ๋ณต์ฑ(reptitiveness)๊ณผ ๋ก๊ทธ ํ๋ฅ (log probability)์ ์ฌ์ฉ
์ด ๊ณผ์ ์์ beam search์ temperature scheduling์ด ์ค์ (4.5)
๊ธด transcription์ ๋ํ performance ์ธก์ ํ๊ธฐ ์ํด 7๊ฐ์ dataset์ผ๋ก ๊ตฌ์ฑ๋ ๋ค์ํ ๊ธธ์ด์ recording ์ํ๋ฅผ ๊ฒ์ฆ(๋ค์ํ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๊ฐ์ง๋๋ก ๊ตฌ์ฑ)
- TED-LIUM3์ full-length TED ๊ฐ์ฐ
- The Late Show Jargon-laden(with Stephen Colbert)
- Videos/podcasts
- online blogs (Rev16 and Kincaid46)
- recordings of earnings calls
- the full-length interviews from the Corpus of Regional African American Language (CORAAL)
- Full detail longform dataset Appendix A
Result
'๐พ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Forensic Architecture] Justice Vision / "Vision์ผ๋ก ์ ์ ๊ตฌํ" (0) | 2023.11.18 |
---|---|
[DATA] ACNE04 Dataset download(์ฌ๋๋ฆ ๋ณ๋ณ ๊ฒ์ถ) (0) | 2023.10.16 |
Demand forecasting in logistics (0) | 2023.07.25 |
CM3leon(.Meta) (0) | 2023.07.16 |
[CS324] Introduction (0) | 2023.07.03 |