【论文精读】Zipformer：如何重新定义语音识别编码器的效率与性能？

摘要本文介绍了一款名为WeNet的开源端到端语音识别工具包。其核心创新在于提出 “U2” 架构，首次在单一模型中统一了流式（实时）与非流式（离线）的语音识别模式，旨在弥合前沿研究模型与实际工业部署之间的差距。核心问题与目标：解决端到端语音识别模型研究与部署脱节的问题，提供一个生产就绪、高效率的解决方案。核心技术（U2）：模型架构：采用混合CTC/注意力机制，以Transformer或Conformer作为编码器，并用注意力解码器进行重打分以提升精度。关键创新（动态分块注意力）：通过动态分块策略，使自注意力…