小奥的学习笔记

  • Home
  • Learning & Working
    • Speech Enhancement Notes
    • Programming language
    • Computer & DL
    • MOOC
  • Life
    • Life Time
    • Thinking & Comprehension
    • Volunteer
    • Plan
    • Travel
  • Footprints
  • GuestBook
  • About
    • About Me
    • 个人履历
    • 隐私策略
  1. 首页
  2. Study-notes
  3. Computer & DL
  4. 语音处理学习笔记
  5. 正文

语音信号处理笔记(2)

2019年6月23日 1571点热度 0人点赞 1条评论

语音和阵列信号的基础

以下内容均为自己有关文献和论文整理,因为部分公式较难打出,所以整理成了图片。

语音信号及特点

1.语音信号的几大特点:
54d91e8d61aed30fa729fa015a0d24aa.png

噪声场

不同噪声场中的噪声之间的相关程度不一样。定义噪声相关函数如下:
be090821cd4f50f6534dbeb308245cd7.png

83d88fc3a4a31d2e9654f53b27ced0ec.png

一般认为,在不考虑噪声的散射、幅度衰减等的情况下,相干噪声场中噪声直达各个麦克风。实际中,开放的、没有混响的环境通常为相干噪声场;非相干噪声场中,噪声互不相干,理想的非相干噪声场实际环境很少见,通常认为麦克风产生的电子噪声为非相干噪声。许多实际噪声环境可以看作散射场,如室内、车内环境等。

近场和远场

区分 特点
远场 一般认为信源到阵列中心的距离远大于信号波长为远场 声音信号是平面波,阵列接收的多路信号间主要存在时延差,忽略它们的幅度差。
近场 反之为近场。 考虑阵元接收信号间的幅度差,认为声音信号是球面波。

空间采样定理

对于阵元间距相等的线性阵列来说,定义空间采样频率为

1b48053d93c706c0677491c3d22e44bb.png

宽带信号接收模型

假设空间中有一个M阵列的阵元,接收到一个直达的宽带信号,入射角为θ,那么第m个阵元接收到的信号可以表示为
8b1901cc3c2fb962cf690e681f7d0906.png

就是导向矢量,其与信号频率和试验有关系,时延又和阵列结构以及入射角有关系。

接下来的内容可以将频域的窄带波束形成算法扩展到宽带。

如果我们将信号观察期间内接收到的数据进行分块,对每块信号进行K点变换,只要数据块比信号相关事件长,那么变换后的每块数据都不想管,那么向量形式的公式可以转化为短时分析的形式

af86a6423ad1cc450db5077cef7de698.png

式中分别是第l数据块的接受信号、第一个麦克风接收的源信号、噪声在fk处的DFT。fk是第k个频点对应的频率。

导向矢量估计

导向矢量估计主要有以下几种方法:
1. 直接估计导向矢量。这一类方法基于这一准则:期望信号相关矩阵的特征向量可以作为导向矢量的估计,估计出相关矩阵后进行广义特征值分解,找到最大特征值对应的特征向量,认为是导向矢量的估计。
2. 时延估计。这是一种间接估计导向矢量的方法,得到每个麦克风相对参考阵元的时延后,便可计算出每个频率分量对应的导向矢量,时延估计更为简单,对于需要时间同步的算法,也更为直接。环境混响程度轻、信噪比高条件下,现有的时延估计算法能取得良好性能,但在低信噪比复杂环境下,鲁棒性不高,性能下降,而波束形成算法的同步操作对时延误差比较敏感。使用麦克风阵列进行语音增强,而不涉及其他需求(声源跟踪、定位等),计算时延是较为直接的导向矢量估计方法。
3. 声学传递函数ATF估计。
4. 波达方向估计。时延估计与DOA估计是等价问题,两者可以相互转换:DOA估计出信号入射角度后,在已知阵列结构条件下,便可计算出各阵元的相对时延,进而得到导向矢量。基于DOA的方法,理想情况下性能好,通常考虑信号为直达声,信噪比低、环境混响严重时,DOA性能急剧下降,另外阵列结构信息在有些运用中是未知的。尽管 DOA算法在实际中有较多运用,但在导向矢量估计方面并没有时延估计那么直接。

后置滤波

后置滤波原因:
1. 波束形成对于非相干噪声去除能力较差;
2. 波束形成对于非稳态噪声处理能力有限。

后置滤波器的参数需要利用多路输入信号的信息来计算,可以进一步抑制波束形成输出的噪声,解决波束形成对非相干噪声抑制能力不足的问题,提高语音增强算法的性能。

Zelinski方法的维纳滤波器表达式如下:
0840327ac50075f71996c239738a1a06.png

上面Re后面的式子和下面那个式子分别表示相位同步之后的输入信号的互功率谱的估计和自功率谱的估计。整个方法的意思是:用阵列得到的多路信号的自相关和互相关功率谱密度的平均,来估计波束形成输出信号中的期望信号和噪声的功率谱。

这个方法存在两个问题:

  1. 如果噪声信号相关性较大,噪声功率就会欠估计,噪声去除不足。
  2. 如果噪声相关性较低,就会过估计,导致信号的失真。

所以在实际的散射场中,会存在低频去噪能力不足,有残留噪声。这是因为噪声往往在低频具有较高的相关性。

参考文献

[1] 张丽艳. 复杂环境下麦克风阵列语音增强方法研究[D]. 大连理工大学, 2009.
[2] 何礼, 周翊, 刘宏清. 利用相位时频掩蔽的麦克风阵列噪声消除方法[J]. 信号处理, 2018, 34(12):100-108.
[3] Cohen I . Relative Transfer Function Identification Using Speech Signals[J]. IEEE Transactions on Speech and Audio Processing, 2004, 12(5):451-459.

本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: 后置滤波 宽带信号 导向矢量 空间采样定理 阵列信号处理
最后更新:2019年6月23日

davidcheung

这个人很懒,什么都没留下

打赏 点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

搜索
欢迎关注我的个人公众号
最新 热点 随机
最新 热点 随机
DEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架 奥地利匈牙利九日游旅程 论文阅读之Study of the General Kalman Filter for Echo Cancellation 小奥看房之鸿荣源珈誉府 杭州往返旅途及西溪喜来登和万怡的体验报告 2022年的第一篇碎碎念
奥地利匈牙利九日游旅程论文阅读之Study of the General Kalman Filter for Echo CancellationDEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架
反思111111 生活点滴:今天的移动硬盘到货咯! 《鸟哥的Linux私房菜》(基础篇)笔记整理(第4章) 2010 S.V Beijing Travel 21:Very Boring Vacation 新青年报[New Youth]第八期(高考毕业特刊)发布! 麦格奥特曼长篇版《永恒的决战!奥特曼之光》
标签聚合
学习 高中 Python python学习 leetcode linux 鸟哥的linux私房菜 生活 Java 算法
最近评论
davidcheung 发布于 5 个月前(02月09日) The problem has been fixed. May I ask if you can s...
tk88 发布于 5 个月前(02月07日) Hmm is anyone else having problems with the pictur...
cuicui 发布于 9 个月前(10月20日) :wink:
niming 发布于 10 个月前(09月19日) 同级校友,能刷到太巧了
davidcheung 发布于 2 年前(08月16日) 我得找一下我之前整理的word文档看一下,如果找到了我就更新一下这篇文章。
Nolan 发布于 2 年前(07月25日) 您的笔记非常有帮助。贴图不显示了,可以更新一下吗?
davidcheung 发布于 3 年前(06月19日) 到没有看webrtc的代码。现在主要在看我们公司的代码了。。。只是偶尔看一看webrtc的东西。。。
aobai 发布于 3 年前(03月13日) gain_change_hangover_ 应该是每三个block 只能够调整一次,这样保证每帧...
匿名 发布于 5 年前(12月30日) 烫
小奥 发布于 5 年前(12月12日) webRTC里面的NS本身我记得就是在C++里面呀

COPYRIGHT © 2025 小奥的学习笔记. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

陕ICP备19003234号-1

鲁公网安备37120202000100号