Kaldi的egs下通用样例解释

aidatatang_200zh/s5

数据堂200h中文开源数据，用于语音识别 LM+MFCC+Mono+Triphone(tri1:deltas;tri2:delta+delta-delta;tri3a:lda+mllt)+fMLLR+SAT+TDNN

openslr33数据，声纹识别 MFCC+UBM+PLDA

utils/subset_data_dir.sh
分割数据，用于建立初始小模型，而后一步一步扩充

steps/train_mono.sh
单音素模型训练

steps/align.sh, steps/align_si.sh, steps/align_fmllr.sh
强制对齐

steps/train_sat.sh
说话人自适应，一般之后跟fmllr，第一个sat前用si或者fmllr，s… 更多... “Kaldi中每个脚本的简单解释”

LM：语言模型

MFCC：Mel频谱特征

PLP: Perceptual Linear Prediction, PLP特征

fBank:　fBank特征

CMVN：
Cepstral Mean and Variance Normalization
倒谱均值方差归一化

Mono：Mono phone，单音素模型训练

Triphone：三音素模型训练，一般 tri1: deltas; tri2: delta+delta-delta; tri3a… 更多... “语音识别中的术语”

OPENSLR提供的免费的语言和语音的数据，以及跟语音识别有关的软件．

语言：English
大小：超过100G
时长：960 – 官方写的是1000小时
采样率：16kHz
Link：http://www.openslr.org/12

语言：English
大小：54G
时长：452小时
声道: 1
采样率: 16kHz
精度: 16bit
Sample E… 更多... “ASR数据集”