【论文精读】Zipformer：如何重新定义语音识别编码器的效率与性能？

待完善

2026年2月10日 0条评论 263点热度 0人点赞 yszhang 阅读全文

摘要本文介绍了一款名为WeNet的开源端到端语音识别工具包。其核心创新在于提出 “U2” 架构，首次在单一模型中统一了流式（实时）与非流式（离线）的语音识别模式，旨在弥合前沿研究模型与实际工业部署之间的差距。核心问题与目标：解决端到端语音识别模型研究与部署脱节的问题，提供一个生产就绪、高效率的解决方案。核心技术（U2）：模型架构：采用混合CTC/注意力机制，以Transformer或Conformer作为编码器，并用注意力解码器进行重打分以提升精度。关键创新（动态分块注意力）：通过动态分块策略，使自注意力…

2026年1月11日 0条评论 321点热度 1人点赞 yszhang 阅读全文

摘要传统方法通常使用时频掩码（TF mask）对含噪频谱图进行点乘处理，而复数值掩码（CM）因其能修正相位而优于时值掩码。近期很多研究提出使用复数值滤波器代替掩码点乘操作，通过利用频带内局部时间相关性，整合过去和未来时间步的信息。这篇论文提出了DeepFilterNet，是一种基于深度滤波的两阶段语音增强框架。第一阶段利用ERB（等效矩形带宽）缩放的增益增强语音的频谱包络，模拟人耳听觉的频率感知特性；第二阶段通过深度滤波增强语音的周期性成分，除了利用语音的感知特性外，还通过可分离卷积和线性层/循环层中的分组策略…

2025年2月9日 0条评论 1529点热度 0人点赞 yszhang 阅读全文

信号模型假设输入信号为：【待本周末更新】大家可以临时先看：飞书链接：https://qouwscohey.feishu.cn/docx/EeDSdR09Bo9QuWx04RIcHNBfnke 密码可以关注我的公众号“小奥的学习笔记”（也可以扫右侧的码）关注后，回复“GKF”或者“gkf”即可获得密码。

2023年12月11日 0条评论 1677点热度 0人点赞 yszhang 阅读全文

参考视频：https://space.bilibili.com/230105574/ 阅读原文请访问：https://qouwscohey.feishu.cn/docs/doccnAtfHvdvbQZzj5YfXWX8Etd 第一节：递归算法不确定性：①不存在完美的数学模型；②系统的扰动不可控，也很难建模；③测量传感器存在误差。我们可以发现，随着k增大，1/k趋近于0，那么xk->xk-1。也就是说，随着k增加，测量结果不再重要。而k越小，1/k越大，zk的作用越大。如果我们把1/k用一个参数Kk来代替…

2021年11月13日 0条评论 2784点热度 1人点赞 yszhang 阅读全文

计算参考信号和采集信号的时延：GetDelay() AEC3中的时延估计算法是使用计算滤波器能量最大块来作为延迟估计值，它是当滤波器收敛到一定程度时，计算所有滤波器系数的能量，取峰值的系数（tap）对应的delay就是对齐需要的delay。它是由步长为0.7的5个时域的NLMS滤波器组成，每个滤波器默认为32个块，每个块有16个样点，总计有32*16=512个样点，5个滤波器理论上共有512*5=2560个点，但实际上5个滤波器在时域上互相重叠8块（即输入的信号在时间上存在重叠），所以实际上5个滤波器可以估计256…

2021年10月17日 2条评论 6648点热度 9人点赞 yszhang 阅读全文

整体框图参考信号：送往时延估计、AEC的状态计算采集信号：送往时延估计、线性滤波器、AEC的状态计算线性滤波器使用时延对齐后的参考信号和采集信号进行处理；线性滤波器处理后的结果送往NLP模块，最终得到处理结果。类调用关系图 EchoCanceller3（入口） AnalyzeRender 该部分只是将AudioBuffer类型的参考信号insert到render_transfer_queue_，这是一个swapqueue，数据从结尾insert，从开头remove，这里没有什么可以说的【当然insert之前…

2021年10月17日 0条评论 4307点热度 8人点赞 yszhang 阅读全文

12 3 4 5…19

【论文精读】Zipformer：如何重新定义语音识别编码器的效率与性能？

WeNet: Production Oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit

DEEPFILTERNET：一种基于深度滤波的全频带音频低复杂度语音增强框架

论文阅读之Study of the General Kalman Filter for Echo Cancellation

卡尔曼滤波器学习笔记：初步认识

AEC个人学习串讲之AEC3：时延对齐、线性处理、非线性处理

AEC个人学习串讲之AEC3：概述及非核心部分