【论文精读】Zipformer：如何重新定义语音识别编码器的效率与性能？

待完善

2026年2月10日 0条评论 278点热度 0人点赞 yszhang 阅读全文

摘要本文介绍了一款名为WeNet的开源端到端语音识别工具包。其核心创新在于提出 “U2” 架构，首次在单一模型中统一了流式（实时）与非流式（离线）的语音识别模式，旨在弥合前沿研究模型与实际工业部署之间的差距。核心问题与目标：解决端到端语音识别模型研究与部署脱节的问题，提供一个生产就绪、高效率的解决方案。核心技术（U2）：模型架构：采用混合CTC/注意力机制，以Transformer或Conformer作为编码器，并用注意力解码器进行重打分以提升精度。关键创新（动态分块注意力）：通过动态分块策略，使自注意力…

2026年1月11日 0条评论 336点热度 1人点赞 yszhang 阅读全文

摘要传统方法通常使用时频掩码（TF mask）对含噪频谱图进行点乘处理，而复数值掩码（CM）因其能修正相位而优于时值掩码。近期很多研究提出使用复数值滤波器代替掩码点乘操作，通过利用频带内局部时间相关性，整合过去和未来时间步的信息。这篇论文提出了DeepFilterNet，是一种基于深度滤波的两阶段语音增强框架。第一阶段利用ERB（等效矩形带宽）缩放的增益增强语音的频谱包络，模拟人耳听觉的频率感知特性；第二阶段通过深度滤波增强语音的周期性成分，除了利用语音的感知特性外，还通过可分离卷积和线性层/循环层中的分组策略…

2025年2月9日 0条评论 1559点热度 0人点赞 yszhang 阅读全文

第三周：序列模型和注意力机制 3.1 基础模型 1.序列到序列模型【参考文献：Sutskever et. al., 2014. Sequence to sequence learning with neural networks, Cho et. al., 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation】如图1所示，那么怎样训练处一个网络来输入序列x和输出序列y…

2018年3月21日 0条评论 2702点热度 0人点赞 yszhang 阅读全文

Project 5 Week3 自然语言处理与词汇嵌入 1 词汇表征 1. One-hot表征 one-hot表征的方式是对模型字典中的单词进行表征，对应单词的位置用1表示，其余位置用0表示，如图1所示：图1 这种方法是存在缺点的，它将每个词孤立起来，使得模型对相关词的泛化能力不强，每个词向量之间的距离都一样，乘积均为0，所以无法获取词与词之间的相似性和关联性。 2.特征表征：词嵌入这种方法是用不同的特征来对词汇进行表示，不同的单词在不同的特征下都有不同的取值，取值可以表示该词汇在该特征下的相似度…

2018年3月18日 0条评论 2300点热度 0人点赞 yszhang 阅读全文

序列模型 1. Why sequence models? 在实际的生活中，很多东西都是序列信号，例如语音信号、音乐产生、情感分类、DNA序列分析等，这些虽然可以使用一般神经网络去完成，但就如同图像识别一样，那样去做太过于复杂，因此在这里引入了循环神经网络（RNN）。 2. Notation x：代表输入的语句，例如：Harry Potter and Herminone Granger invented a new spell.并且使用x<t>代表本句中第t个单词。 y：代表输出结果。例如上句中对人名进行…

2018年3月11日 0条评论 2429点热度 0人点赞 yszhang 阅读全文

特殊应用：人脸识别和神经风格迁移 1.人脸识别（Face Recognition）人脸识别包括两个部分：（1）验证（Verification）输入图像，名字/ID；输出所输入的图像是不是所要验证的那个人。（2）识别（Recognition） l 拥有K个人的数据库。 l 得到一个输入图像。 l 如果输入图像是这K个人之一，输出ID；否则的话，输出“未识别”。人脸识别问题相对于人脸验证来说具有更高难度。对于一个验证系统来说，如果拥有99%的精确度，则这个系统已经有很高的精…

2018年3月7日 0条评论 2324点热度 0人点赞 yszhang 阅读全文

12 3 4

【论文精读】Zipformer：如何重新定义语音识别编码器的效率与性能？

WeNet: Production Oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit

DEEPFILTERNET：一种基于深度滤波的全频带音频低复杂度语音增强框架

吴恩达深度学习课程DeepLearning.ai笔记（5-3）

吴恩达深度学习课程DeepLearning.ai笔记（5-2）

吴恩达深度学习课程DeepLearning.ai笔记（5-1）

吴恩达深度学习课程DeepLearning.ai笔记（4-4）