摘要 本文介绍了一款名为WeNet的开源端到端语音识别工具包。其核心创新在于提出 “U2” 架构,首次在单一模型中统一了流式(实时)与非流式(离线)的语音识别模式,旨在弥合前沿研究模型与实际工业部署之间的差距。 核心问题与目标:解决端到端语音识别模型研究与部署脱节的问题,提供一个生产就绪、高效率的解决方案。 核心技术(U2): 模型架构:采用混合CTC/注意力机制,以Transformer或Conformer作为编码器,并用注意力解码器进行重打分以提升精度。 关键创新(动态分块注意力):通过动态分块策略,使自注意力…
