ASR之CTC
本片文章的图片来源于
CTC的简单描述
输入N个feature,输出N个token
当不知道该输出什么的时候,就输出∅
合并∅ 之间相同的token,然后去掉∅
例如
∅ccc∅aa∅∅
合并之后就是输出 cat
CTC解码
下面是CTC解码的过程
上面的classifier是linear classifier,token distribution表示输出哪个token的几率最大。
CTC training的问题
上面的Loss Function跟我们在Listen Attention Spell里面Loss Function是一样,都是Cross Entropy。但是这里有个alignment的问题,虽然我们知道ground truth是什么,比如上面的例子
“好棒”,但是根据CTC的规则,产生这个输出的CTC序列可能有很多种,比如:
∅∅好棒∅∅ 好∅∅棒∅∅ ∅好好棒∅∅ ∅∅∅∅好棒 …
为了解决这个问题,就是群举所有的可能,计算每一种的CE。
2 Replies to “ASR之CTC”