'Deep Learning' 카테고리의 글 목록 (3 Page)

[Whisper] Robust Speech Recognition via Large-Scale Weak Supervision- (4)

2023.03.21· Deep Learning

https://bnmy6581.tistory.com/133 --(1) [Whisper] Robust Speech Recognition via Large-Scale Weak Supervision - (1) bnmy6581.tistory.com https://bnmy6581.tistory.com/134 --(2) [Whisper] Robust Speech Recognition via Large-Scale Weak Supervision - (1) bnmy6581.tistory.com https://bnmy6581.tistory.com/135--(3) [Whisper] Robust Speech Recognition via Large-Scale Weak Supervision - (1) bnmy6581.tistor..

[Whisper] Robust Speech Recognition via Large-Scale Weak Supervision- (3)

2023.03.19· Deep Learning

https://bnmy6581.tistory.com/133 --(1) [Whisper] Robust Speech Recognition via Large-Scale Weak Supervision - (1) bnmy6581.tistory.com https://bnmy6581.tistory.com/134 --(2) [Whisper] Robust Speech Recognition via Large-Scale Weak Supervision - (2) https://bnmy6581.tistory.com/133 --(1) [Whisper] Robust Speech Recognition via Large-Scale Weak Supervision - (1) bnmy6581.tistory.com https://arxiv...

[Whisper] Robust Speech Recognition via Large-Scale Weak Supervision- (2)

2023.03.19· Deep Learning

https://bnmy6581.tistory.com/133 --(1) [Whisper] Robust Speech Recognition via Large-Scale Weak Supervision - (1) bnmy6581.tistory.com https://arxiv.org/abs/2109.07740 Scaling Laws for Neural Machine Translation We present an empirical study of scaling properties of encoder-decoder Transformer models used in neural machine translation (NMT). We show that cross-entropy loss as a function of model..

[Whisper] Robust Speech Recognition via Large-Scale Weak Supervision- (1)

2023.03.18· Deep Learning

[Whisper] Kspon Valid --- (2) CER

2023.03.13· Deep Learning

Robust Speech Recognition via Large-Scale Weak Supervision *large model은 2023.1 large-v2와 동일하게 바뀜 KsponSpeech 데이터는 짧은 발화의 audio를 주로 구성되어있다. Whisper는 99개의 토큰으로 처음 발화에 대한 언어 예측(language identification)을 수행한다. 하지만 너무 짧은 발화 같은 경우 whisper가 다른 언어로 예측해 translate 자체가 틀려버려 CER이 증가하는 것을 볼 수 있다. language Configure을 korean으로 설정하면 language identification을 수행하지 않고 바로 transcript로 예측해 더 좋은 성과가 났다. model size는 예..

[Whisper] Koreanspon Valid

2023.03.10· Deep Learning

https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=123 AI-Hub 분야한국어 유형 오디오 , 텍스트 갱신년월 : 2023-02 구축년도 : 2018 조회수 : 6,273 다운로드 : 12,094 용량 : 다운로드 관심데이터 등록 관심 31 aihub.or.kr Whisper 한국어 음성 (Ksponspeech dataset) 검증 Kspon의 eval_clean데이터를 사용해 Whisper의 성능 지표를 작성해보았다. 사용 모델 (large 모델, 추후 다양한 실험 진행) 첫 실험은 large 모델을 사용해 language identification을 한국어로 설정하지 않고 CER을 계산했다. 결과 0.42로 놀..

[Whisper] (1) - Abstract & Introduction

2023.03.06· Deep Learning

https://github.com/openai/whisper GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision - GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision github.com Paper Review Abstract & Introduction 680,000 시간의 다국어 학습을 진행 시 fine-tuning 없이 zero-shot transfer benchmark 수준의 결과를 얻을 수 있다. ..

[NVIDIA RIVA ASR] 설치 가이드 (feat.nvidia-riva-sdk)

2023.02.23· Deep Learning

Step-1 Service-maker 모델 생성 ngc 등록 1. ngc 가입 2. nvcr.io에 API 등록 docker login nvcr.io # Username: $oauthtoken # Password: [ngc API KEY] service-maker로 원하는 모델 생성 (STT) 1. git clone riva demo 2. ngc pull riva_quickstart ngc registry resource download-version "nvidia/riva/riva_quickstart:2.8.1" 3. riva network set docker network create riva-speech 4. config 파일 수정 asr_acoustic_model=citrinet_1024 5. 한..

티스토리툴바