摘要 传统方法通常使用时频掩码(TF mask)对含噪频谱图进行点乘处理,而复数值掩码(CM)因其能修正相位而优于时值掩码。近期很多研究提出使用复数值滤波器代替掩码点乘操作,通过利用频带内局部时间相关性,整合过去和未来时间步的信息。 这篇论文提出了DeepFilterNet,是一种基于深度滤波的两阶段语音增强框架。第一阶段利用ERB(等效矩形带宽)缩放的增益增强语音的频谱包络,模拟人耳听觉的频率感知特性;第二阶段通过深度滤波增强语音的周期性成分,除了利用语音的感知特性外,还通过可分离卷积和线性层/循环层中的分组策略…