ASR之CTC

ASR之CTC

本片文章的图片来源于

CTC的简单描述

输入N个feature,输出N个token
当不知道该输出什么的时候,就输出∅
合并∅ 之间相同的token,然后去掉∅

例如
∅ccc∅aa∅∅
合并之后就是输出 cat

CTC解码

下面是CTC解码的过程

上面的classifier是linear classifier,token distribution表示输出哪个token的几率最大。

CTC training的问题


上面的Loss Function跟我们在Listen Attention Spell里面Loss Function是一样,都是Cross Entropy。但是这里有个alignment的问题,虽然我们知道ground truth是什么,比如上面的例子
“好棒”,但是根据CTC的规则,产生这个输出的CTC序列可能有很多种,比如:
∅∅好棒∅∅ 好∅∅棒∅∅ ∅好好棒∅∅ ∅∅∅∅好棒 …
为了解决这个问题,就是群举所有的可能,计算每一种的CE。

    分享到:

2 Replies to “ASR之CTC”

留言

你的邮箱是保密的 必填的信息用*表示