Conformer-ctc-medium-ko

해당 모델은 RIVA Conformer ASR Korean을 AI hub dataset에 대해 파인튜닝을 진행했습니다.
Conformer 기반의 모델은 whisper와 같은 attention 기반 모델과 달리 streaming을 진행하여도 성능이 크게 떨어지지 않고, 속도가 빠르다는 장점이 있습니다.
V100 GPU에서는 RTF가 0.05, CPU(7 cores)에서는 0.35 정도 나오는 것을 확인할 수 있었습니다.
오디오 chunk size 2초의 streaming 테스트에서는 전체 오디오를 넣는 것에 비해서는 20% 정도 성능저하가 있으나 충분히 사용할 수 있는 성능입니다.
추가로 open domain이 아닌 고객 응대 음성과 같은 domain에서는 kenlm을 추가하였을 때 WER 13.45에서 WER 5.27로 크게 성능 향상이 있었습니다.
하지만 그 외의 domain에서는 kenlm의 추가가 큰 성능 향상으로 이어지지 않았습니다.

Streaming 코드와 Denoise model이 포함된 코드는 아래 깃헙에서 확인할 수 있습니다. https://github.com/SUNGBEOMCHOI/Korean-Streaming-ASR

Training results

Training Loss	Epoch	Wer
9.09	1.0	11.51

dataset

데이터셋 이름	데이터 샘플 수(train/test)
고객응대음성	2067668/21092
한국어 음성	620000/3000
한국인 대화 음성	2483570/142399
자유대화음성(일반남녀)	1886882/263371
복지 분야 콜센터 상담데이터	1096704/206470
차량내 대화 데이터	2624132/332787
명령어 음성(노인남여)	137467/237469
전체	10916423(13946시간)/1206588(1474시간)

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-05
train_batch_size: 16
eval_batch_size: 16
num_train_epoch: 1
sample_rate: 16000
max_duration: 20.0