728x90
Model Info
- ์ค๊ตญ Baidu์์ ๊ณต๊ฐํ End-to-End ์์ฑ์ธ์ ๋ชจ๋ธ(2015.12)
- ์์ฑ๋ฐ์ดํฐ์ Melspectrograms์ ์ ์ฉ
- Fourier Transform์ ๋ฐ์ํ๋ ๊ฐ ์์ฑ feature์ ์์น๋ฅผ ํ์
ํ ์ ์๋ค.
- STFT(short time fourier transform)์ ์ ์ฉ, ์์ฑ feature๋ฅผ ์ข์ ๋จ์๋ก FT๋ฅผ ์ ์ฉํด feature์ ์์น๋ฅผ ๋ฐ์
- ์ฌ๋์ ์ ์ฃผํ์์ ๋ํด ๋ฏผ๊ฐํ ์ ํ์
ํ๋ค. ๊ณ ์ฃผํ์์ ๋ํ ์์ฑ์ ์ ์ธ์ํ์ง ๋ชปํ๋ค.
- ์ฃผํ์๋ฅผ ์ฌ๋์ ์ธ์๋จ์๋ก mel scale ๋ณํ
- Mel(f) = 2595 * log(1+ f / 700)
- ์ฃผํ์๋ฅผ ์ฌ๋์ ์ธ์๋จ์๋ก mel scale ๋ณํ
- Mel feature๋ฅผ CNN๊ณผ RNN์ ๊ฑฐ์น ๋ค CTC(Connectionist Temporal Classification)์ ์ ์ฉ
- Fourier Transform์ ๋ฐ์ํ๋ ๊ฐ ์์ฑ feature์ ์์น๋ฅผ ํ์
ํ ์ ์๋ค.
CTC (Connectionist temporal classification)
- ์ฅ์
- ์์ฑ ๋ฐ์ดํฐ์ ๋ณ๋ค๋ฅธ ๋ผ๋ฒจ๋ง ์์ด ์ํ์ค ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ํ์
- ์ํ์ค๊ฐ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ํตํด P(S_t|S_t+1) ๊ฐ์ ์ ์ฌ์ฑ์ผ๋ก ์ ์ฌ์ ๋ํ ๊ตฌ๋ถ C(hel-lo) = C(h-ello) = C(hello)
- ๋จ์
- ์ํ์ค๊ฐ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ ์ฉํ๋ฏ๋ก ๊ณ์ฐ๋์ด ์ฆ๊ฐํ๋ค.
- beam ๊ณ์ฐ์ผ๋ก ์ค๋ณต ์ฐ์ฐ๋ฐฉ์ง
- Mel ํจ์ ์ ์ฉ + CTC ์ ์ฉ์ feature์ ํ๋ ์์ด ๋ณํ๊ฒ ๋์ด ํ์ต์ด ์ ๋๋ก ์ด๋ฃจ์ด์ง์ง ์์ ์ ์๋ค.
- ์ํ์ค๊ฐ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ ์ฉํ๋ฏ๋ก ๊ณ์ฐ๋์ด ์ฆ๊ฐํ๋ค.
Train Compose (AI Hub ํ๊ตญ์ด ์์ฑ, 17G)
Using Kospeech
batch size | 32 |
init_lr_scale | 0.01 |
final_lr_scale | 0.05 |
optimizer | adam |
init_lr | 0.000001 |
final_lr | 0.000001 |
Result
Cost Time | 137.68h |
Epoch | 18 / 70 |
CER | 0.26 |
loss | 0.419 |
๋ฐ์ํ
'๐พ Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NVIDIA RIVA ASR] ์ค์น ๊ฐ์ด๋ (feat.nvidia-riva-sdk) (0) | 2023.02.23 |
---|---|
[from numba.np.ufunc import _internalSystemError: initialization of _internal failed without raising an exception] numpy version Error (0) | 2023.02.23 |
[NVIDIA RIVA] ngc ๋ฑ๋ก (0) | 2023.01.27 |
[mac] VToonify [...ing] (0) | 2023.01.15 |
ViT(Vision in Transformer) Review (0) | 2022.12.19 |