ASR之区分性训练

ASR之区分性训练

区分性训练可以简单地理解为使得正确的更正确,错误的更错误。区分性训练之后的ASR识别效果可以有10-20%的提升。

区分性训练是一类训练准则的总称,包括

1. MMI - Maximum Mutual Information
2. bMMI - boosted Maximum Mutual Information
3. MPE - Minimize Phonime Error
4. sMBR - state-level Minimum Byes Error
5. LB-MMI - Lattice-based MMI
6. LF-MMI - Lattice-free MMI

而不是等同于MMI,一般说到区分性训练,会想起来MMI,是因为最初提出来区分性训练的是用MMI来做的。

基于MMI的训练称作MMIE(Maximum Mutual Information Estimation)。

下面一个简单例子理解区分性训练。假设我们要识别的只有 a, b, c, d 四个字符,解码空间中四条不同的路径对应上面的四个字符。给定一条训练数据,对于标注文本b,那么最大似然的优化目标是logP(b)最大。而区分性训练的准则则是使得 log( P(b)/(P(a) + P(b) + P(c) + P(d)))最大。为了让它最大,需要使得分子变大(正确的更正确),分母变小(错误更错误),这样显得正确路径在整个空间中的分数优势更加明显。

参考

End-to-end speech recognition using lattice-free MMI
Speech Recognition — Maximum Mutual Information Estimation (MMIE)

    分享到:

留言

你的邮箱是保密的 必填的信息用*表示