ASR之RNN-T
本篇是RNN-T的学习笔记,图片来源于
RNA
介绍RNN-T之前介绍一下RNA,因为它是介于上一篇介绍CTC和本篇要介绍的RNN-T之间的一个东西。RNA时候Recurrent Neural Aligner的缩写,
CTC每一个token输出的时候,是相互独立的,RNA就会让当前输出token的时候参看上一个输出的token,并且把linear的classifier改成RNN。
RNN-T
CTC和RNA都是拿到一个输入,就输出一个token,如果我们想给一个输入,多个输出,前2个模型就不行,RNN-T就可以解决这个问题(我们前面提到的LAS也可以解决这样的问题)。它拿到一个输入,就一直输出直到没有东西可以输出,此时输出∅ ,这个时候decoder会跟encoder拿下一个输入。
我们可以用下图表示这个过程,
上图的输出就是th∅e∅∅_∅ 下划线表示空格,使用CTC规则,最后得到the
上面图不是RNN-T的模型,它是描述的上述的过程,下面才是RNN-T的模型图,
上面的浅黄色的部分和CTC中的一样还是linear classifier,我们在最上面添加了RNN来决定给下一个RNN的token dependency是什么,在上上个图,token dependency就是上一个token。
One Reply to “ASR之RNN-T”