Kaldi的egs下通用样例解释
aidatatang_200zh/s5
数据堂200h中文开源数据,用于语音识别 LM+MFCC+Mono+Triphone(tri1:deltas;tri2:delta+delta-delta;tri3a:lda+mllt)+fMLLR+SAT+TDNN
aishell/v1
openslr33数据 ,声纹识别 MFCC+UBM+PLDA
aishell/s5
openslr33… 更多... “Kaldi的egs下通用样例解释”
IT夜班车
数据堂200h中文开源数据,用于语音识别 LM+MFCC+Mono+Triphone(tri1:deltas;tri2:delta+delta-delta;tri3a:lda+mllt)+fMLLR+SAT+TDNN
openslr33数据 ,声纹识别 MFCC+UBM+PLDA
openslr33… 更多... “Kaldi的egs下通用样例解释”
utils/subset_data_dir.sh
分割数据,用于建立初始小模型,而后一步一步扩充
steps/train_mono.sh
单音素模型训练
steps/align.sh, steps/align_si.sh, steps/align_fmllr.sh
强制对齐
steps/train_sat.sh
说话人自适应,一般之后跟fmllr,第一个sat前用si或者fmllr,s… 更多... “Kaldi中每个脚本的简单解释”
LM:语言模型
MFCC:Mel频谱特征
PLP: Perceptual Linear Prediction, PLP特征
fBank: fBank特征
CMVN:
Cepstral Mean and Variance Normalization
倒谱均值方差归一化
Mono:Mono phone,单音素模型训练
Triphone:三音素模型训练,一般 tri1: deltas; tri2: delta+delta-delta; tri3a… 更多... “语音识别中的术语”
OPENSLR提供的免费的语言和语音的数据,以及跟语音识别有关的软件.
语言:English
大小:超过100G
时长:960 – 官方写的是1000小时
采样率:16kHz
Link:http://www.openslr.org/12
语言:English
大小:54G
时长:452小时
声道: 1
采样率: 16kHz
精度: 16bit
Sample E… 更多... “ASR数据集”