ASR之Self Supervised Learning

ASR之Self Supervised Learning

2022年8月1号:Self Supervised Learning的框架,参数非常多,比如典型的BERT,参数个数为340M,训练需要的数据量巨大(这个使用类似GigaSpeech或者MultiSpeech可以解决),需要很多GPU,或者需要直接跑在TPU上,训练需要很长的时间才来完成(具体的例子参看本文后面附的视频的44分钟部分)。这里说这个,是… 更多... “ASR之Self Supervised Learning”

ASR之区分性训练

ASR之区分性训练

区分性训练可以简单地理解为使得正确的更正确,错误的更错误。区分性训练之后的ASR识别效果可以有10-20%的提升。

区分性训练是一类训练准则的总称,包括

1. MMI - Maximum Mutual Information
2. bMMI - boosted Maximum Mutual Information
3. MPE - Minimize Phonime Error
4. sMBR - state-level Mini
更多... “ASR之区分性训练”

ASR之声学模型的观测状态

ASR之声学模型的观测状态

这里的声学模型可以时候GMM-HMM或者DNN-HMM。

在HMM的模型中,我们隐状态和观测状态,比如下面的例子,

表情为观测,天气为隐状态,我们是在知道表情的情况下,使用viterbi算法去推测天气。

viterbi算法涉及3个概率,初始概率,转移概率,观测概率。上面的例子中就是给定天气的情况,观测到某个心情的概率。所以这里的观测状态很明确,就是心情。

所以输入 一些列的心情,输… 更多... “ASR之声学模型的观测状态”

ASR之RNN-T

ASR之RNN-T

本篇是RNN-T的学习笔记,图片来源于

RNA

介绍RNN-T之前介绍一下RNA,因为它是介于上一篇介绍CTC和本篇要介绍的RNN-T之间的一个东西。RNA时候Recurrent Neural Aligner的缩写,

CTC每一个token输出的时候,是相互独立的,RNA就会让当前输出token的时候参看上一个输出的token,并且把linear的classifier改成RNN。

RNN-T

更多... “ASR之RNN-T”

ASR之CTC

ASR之CTC

本片文章的图片来源于

CTC的简单描述

输入N个feature,输出N个token
当不知道该输出什么的时候,就输出∅
合并∅ 之间相同的token,然后去掉∅

例如
∅ccc∅aa∅∅
合并之后就是输出 cat

CTC解码

下面是CTC解码的过程

上面的classifier是linear classifier,token distribution表示输出哪个token的几率最大。

CTC training的问题


上… 更多... “ASR之CTC”