小奥的学习笔记

  • Home
  • Learning & Working
    • Speech Enhancement Notes
    • Programming language
    • Computer & DL
    • MOOC
  • Life
    • Life Time
    • Thinking & Comprehension
    • Volunteer
    • Plan
    • Travel
  • Footprints
  • GuestBook
  • About
    • About Me
    • 个人履历
    • 隐私策略
  1. 首页
  2. Study-notes
  3. Computer & DL
  4. 语音处理学习笔记
  5. 正文

论文阅读笔记20190521

2019年5月21日 1250点热度 0人点赞 1条评论

前段时间阅读了一片来自于德国Carl von Ossietzky Universität Oldenburg的Jörn Anemüller和Hendrik Kayser的一篇论文,论文名字叫做《Multi-channel signal enhancement with speech and noise covariance estimates computed by a probabilistic localization model》,看完感觉还挺有借鉴意义的,所以做一个总结。

论文所提方法和旧方法的比较

这篇文章提出了一种麦克风阵列语音增强的算法,这种算法也是基于传统MVDR算法改进而来,因为它采用了新的方式来估计所用的参数,所以效果相比传统方法来说好了很多。

我们都知道,MVDR算法所依赖的参数有两个,一个是噪声协方差矩阵Rnn,还有一个就是导向矢量h。这两个参数的估计准确度越高,自然波束形成的效果也就最好。传统方法对这两个参数的估计主要如以下:

  • 对于噪声协方差矩阵来说,可以通过VAD进行语音段和噪声段的判断,然后在噪声段进行噪声协方差矩阵Rnn的计算,但是这种方法相对来说对VAD依赖很严重,一旦VAD性能下降,噪声协方差的估计自然也就下降,这种方法其实鲁棒性并不好。在单通道中,可以利用语音快于噪声功率谱密度的变化,所以可以用SPP算法来进行噪声估计。
  • 对于导向矢量来说,可以使用时延估计模块,计算出到达各个麦克风的相对时延,然后代入公式进行计算;还有就是可以通过语音协方差矩阵变换来得到,也就是导向矢量可以近似表示为语音协方差矩阵最大特征值所对应的的特征向量。

对于这篇论文来说,它有以下这样几点新意:

  • 论文中的方法利用了空间语音存在概率来获得导向矢量;
  • 论文中的噪声协方差矩阵,本质上也是利用语音存在概率来获得的,具体方法在后面来说。

所以说这篇论文所提出的方法的参数只有一个,那就是语音存在概率map的估计。理论上来说,相比之前方法需要估计多个参数来说,这种只需要估计一个参数的方法只需要保证这个参数更加准确就好了。

论文所提方法的过程

下面就来结合图来介绍下整个流程。

baca46fee14a62e677302d1e91859ac2.png
(自己画的图,为了防止不必要的麻烦就不放在这里了,直接借用论文里面的图)

第一步 Spatio-temporal speech probability map:使用GCC-PHAT(广义互相关函数-相位变换法)来进行时延估计,然后利用GCC-PHAT的结果,送入SVM进行训练得到source probability map,计算公式如下:
bdf989ab11649d2dc99ceebf6df30e72.png

式中,θ表示位置索引、n表示时帧索引,k表示频宽索引,x(n,k)表示多通道语音的SFT。

第二步 Generalized speech and noise covariance estimation:上一步其实我们就得到了这个speech probability map,得到这个map之后,我们就可以带入下面这个公式来计算广义语音协方差矩阵:
558f3cc25b926058ad6e05eeae358b8a.png
在这里的xi和xj代表的是时域的信号,cij的定义如下
4a40333289333a4cf7421f7e49772e1e.png

至于我们得到这个广义语音协方差矩阵是做什么用的呢?下一步就知道了。咱们接下来求解噪声协方差矩阵。
我们知道了语音存在概率,那么我们就可以定义一个噪声存在概率。这个噪声存在概率的定义如下面的图中所示。其实这个时候我们要设置一个阈值p0:当ps≥p0的时候,噪声存在概率自然为0;当ps<p0的时候,噪声存在概率为式中所述。记住无论是噪声存在概率还是语音存在概率,其都是第n帧的θ方向的概率。
e447e321db453fc78349d628f4779e86.png

根据噪声存在概率,仿照上面语音协方差矩阵的形式,就可以得到估计的噪声协方差矩阵,如下
5ec87e8fbe55f6ed9569355d3407423f.png

到目前为止,MVDR算法所需要的两个参数中的噪声协方差矩阵这个参数已经求出来了。接下来求导向矢量。

第三步Steering Vector:前面说的语音协方差矩阵就是用到了这里,如下式所示:
1285131a9978a7b242d2bc67e0672f7f.png

其实就相当于求了一个单位向量而已。

然后把这个也带入MVDR的公示,就可以实现MVDR算法了。更多的内容可以参见论文,也就是参考文献中的论文。

【参考文献】

Anemüller J, Kayser H. Multi-channel signal enhancement with speech and noise covariance estimates computed by a probabilistic localization model[C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017: 156-160.

本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: MVDR noise covariance estimates probabilistic localization model
最后更新:2019年5月21日

davidcheung

这个人很懒,什么都没留下

打赏 点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

搜索
欢迎关注我的个人公众号
最新 热点 随机
最新 热点 随机
DEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架 奥地利匈牙利九日游旅程 论文阅读之Study of the General Kalman Filter for Echo Cancellation 小奥看房之鸿荣源珈誉府 杭州往返旅途及西溪喜来登和万怡的体验报告 2022年的第一篇碎碎念
奥地利匈牙利九日游旅程论文阅读之Study of the General Kalman Filter for Echo CancellationDEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架
AEC个人学习串讲之AEC3:时延对齐、线性处理、非线性处理 Leetcode题目解析(191107) 顺丰速度真快 数据结构【浙江大学】(第11节)整理 Deep Voice Report个人翻译 出道两年来自己的一些感悟
标签聚合
高中 leetcode 鸟哥的linux私房菜 Java Python 生活 算法 python学习 学习 linux
最近评论
davidcheung 发布于 5 个月前(02月09日) The problem has been fixed. May I ask if you can s...
tk88 发布于 5 个月前(02月07日) Hmm is anyone else having problems with the pictur...
cuicui 发布于 9 个月前(10月20日) :wink:
niming 发布于 10 个月前(09月19日) 同级校友,能刷到太巧了
davidcheung 发布于 2 年前(08月16日) 我得找一下我之前整理的word文档看一下,如果找到了我就更新一下这篇文章。
Nolan 发布于 2 年前(07月25日) 您的笔记非常有帮助。贴图不显示了,可以更新一下吗?
davidcheung 发布于 3 年前(06月19日) 到没有看webrtc的代码。现在主要在看我们公司的代码了。。。只是偶尔看一看webrtc的东西。。。
aobai 发布于 3 年前(03月13日) gain_change_hangover_ 应该是每三个block 只能够调整一次,这样保证每帧...
匿名 发布于 5 年前(12月30日) 烫
小奥 发布于 5 年前(12月12日) webRTC里面的NS本身我记得就是在C++里面呀

COPYRIGHT © 2025 小奥的学习笔记. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

陕ICP备19003234号-1

鲁公网安备37120202000100号