[ASR, ] Deepspeech2
ยท
๐พ Deep Learning
Model Info ์ค๊ตญ Baidu์์ ๊ณต๊ฐํ End-to-End ์์ฑ์ธ์ ๋ชจ๋ธ(2015.12) ์์ฑ๋ฐ์ดํฐ์ Melspectrograms์ ์ ์ฉ Fourier Transform์ ๋ฐ์ํ๋ ๊ฐ ์์ฑ feature์ ์์น๋ฅผ ํ์
ํ ์ ์๋ค. STFT(short time fourier transform)์ ์ ์ฉ, ์์ฑ feature๋ฅผ ์ข์ ๋จ์๋ก FT๋ฅผ ์ ์ฉํด feature์ ์์น๋ฅผ ๋ฐ์ ์ฌ๋์ ์ ์ฃผํ์์ ๋ํด ๋ฏผ๊ฐํ ์ ํ์
ํ๋ค. ๊ณ ์ฃผํ์์ ๋ํ ์์ฑ์ ์ ์ธ์ํ์ง ๋ชปํ๋ค. ์ฃผํ์๋ฅผ ์ฌ๋์ ์ธ์๋จ์๋ก mel scale ๋ณํ Mel(f) = 2595 * log(1+ f / 700) Mel feature๋ฅผ CNN๊ณผ RNN์ ๊ฑฐ์น ๋ค CTC(Connectionist Temporal Classification)์ ..