ASR之Conformer

Conformer是Transformer的变种，在encoder里面加入了CNN模块。

跟Transformer比较，主要是加了Convolution Module，除此之外，feed forward变成了2个，残差层是1/2. 去掉了Transformer的Position Encoding层，Transformer中加入这一层主要是Self Attention的机制导致丢失了输入序列的相对位置信息，Conformer因为有CNN，而CNN有编码位置信息的作用，因此Position Encoding就不需要了。SpecAug就是做数据增广。

待补充。。。