2019-11-11  103 views 1

论文阅读整理(基于声源信息提取的说话人定位)

阅读论文题目:Speaker Localization using Excitation Source Information in Speech PREPRINT

算法基本内容

常用的时延估计方法就是广义互相关函数(GCC)方法,其使用的权重主要有两种:相位变换(PHAT)和最大似然(ML)法。前者只适用于噪声较低的情况,它通过展平幅度谱,GCC函数中最高峰的位置对应于延迟,因为它对低信噪比和高信噪比施加同样的权重,所以才只适用于总体信噪比较低的情况。后者在存在多径传播效应或混响较强的情况下性能急剧下降。这主要是因为上面的方法都是用的频谱特征,在传输过程中,由于介质、噪声、混响等原因,这些特征都会被破坏。

但是对应于激发源的特征在面对这些破坏的时候还是有鲁棒性的。所以提出了下面的方法。所提出的方法不使用有声语音的周期性,而是利用含音段的激励特性,尤其是声门闭合瞬间周围的特性。

声道系统的常见激励方式是声带振动,称之为声门振动,它可以被看做是一系列脉冲组成。动态声道系统的特征由短时频谱特征表示。由于在麦克风处接收的信号受噪声和房间响应的影响,因此接收到的信号包含有关声道系统的信息,该声道系统因在不同麦克风处的不同程度的劣化而受到损失。然而有意思的是,在语音产生过程中的显著激励的瞬间(epochs or instants of significant excitation)的相对位置并不受麦克风劣化的影响。在含音段(含有语音的部分)的时刻对应于声门闭合的时刻,并且它们相对于时间轴的位置不随着声学环境的脉冲响应的变化而变化。当然在非声段也可能由于突发的强烈激励出现epochs,即使它们可能不像含音段那样以周期性间隔出现,但是它们的相对位置依旧不受劣化的影响。以上的这种excitation被称为excitation source(激励源)。激励源的信息可以通过语音信号使用线性预测分析来提取到。

线性预测编码通过估计共振峰(共振峰信息包含在语音频谱包络中,共振峰参数提取的关键是估计语音的频谱包络,一般认为谱包络中的最大值就是共振峰)、剔除它们在语音信号中的作用、估计保留的蜂鸣音强度与频率来分析语音信号(保留下来的就是含有源激励的信号)。剔除共振峰的过程称为逆滤波,经过这个过程剩余的信号称为残余(残差)信号。

这个方法使用了线性预测(LP, Linear Prediction)分析。在这里面,每一个样点都被定义为由前p个样点加权组合而成,p就是预测阶数。如果语音信号在第n个瞬间的采样为s(n),则

hat{s}(n)=-\sum\limits_{k=-1}^{p}{{{a}_{k}}s(n-k)}

其中ak就是线性预测系数。真实值与预测值之间的误差可以表示为

e(n)=s(n)-\hat{s}(n)=s(n)+\sum\limits_{k=-1}^{p}{{{a}_{k}}s(n-k)}

线性预测系数(LPC)的最佳值可以通过在大约10-30 ms的分析帧上最小化平方误差来获得。

我们把误差e(n)称为LP残差(LP residual)。给定语音信号,LP残差可以通过将该信号通过一个逆滤波器来提取得到

A(z)=1+\sum\limits_{k=1}^{p}{{{a}_{k}}{{z}^{-k}}}

关于激励源的最重要的信号就是含音段的时刻的序列。

我们知道由于噪声或者混响的影响,直接计算语音信号的互相关函数,相关峰可能就会不太明显。由上面我们可以想到,我们可以对LP残差做互相关函数来求相关峰的位置。当然这样做,因为逆滤波器的缘故,LP残差的频谱的高频部分的噪声会被增强,这会导致两个麦克风之间的噪声相关性变弱,从而在求峰位置的时候一点点影响,不过这点影响很小(little effect)。

在每个音调周期中,主要激励发生在对应于声门关闭瞬间的时期。 在每个时期周围,预测将很差,因此残差中的误差很大。但是,每个epoch周围的残留信号的幅度取决于信号的相位,这会引起幅度的随机波动,因此如果我们直接使用LP残差,则可能会导致较差的相关峰值。所以实际中通常不会直接使用LP参数,而是使用LP残差的希尔伯特包络,它被定义为

h(n)=\sqrt{{{e}^{2}}(n)+e_{h}^{2}(n)}

其中,{{e}_{h}}(n){{e}}(n)的希尔伯特变换(Hilbert Transform),希尔伯特变换是通过交换离散傅立叶变换(DFT)的实部和虚部获得的,然后进行逆变换。 它是将{{e}}(n)通过一个相应为以下的滤波器得到的

H(f)=-jsgn (f)

论文中是用Peak-to-Sidelobe Ratio(PSR,峰旁瓣比)来比较不同的方法,PSR是指峰值除以峰周围40个样本的标准偏差(除去峰两侧的各5个样点)。PSR测量值给出了主峰相对于峰周围值的强度。选择40个样本是非常随机的。

结果分析

下面两张图是一段音频的互相关峰值情况。

图1

图1 来自mic-1和mic-2的50毫秒语音段在不同情况下的互相关函数:(a)语音信号,(b)GCC-PHAT,(c)十阶LP残差,以及(d)LP残差的希尔伯特包络。 PSR是针对每个互相关函数中的最大峰计算的。

图2

图2 来自mic-1和mic-2的50 ms非语音段在不同情况下的互相关函数:(a)语音信号,(b)GCC-PHAT,(c)十阶LP残差,以及(d)Hilbert包络LP残差

由图1(b)我们可以看出,GCC-PHAT的PSR要远远好于纯语音的GCC的PSR,但是PHAT权重的缺点在于它对噪声样点加权,所以它只在低信噪比的时候有较好效果;由图1(c)可以看出10阶LP残差的互相关函数PSR好于纯语音的,但是与GCC-PHAT方法接近;由图1(d)可以看出,带有希尔伯特变换的LP残差的PSR有明显的提高。这主要因为,在LP残差的希尔伯特包络中,高信噪比的部分对应于声道系统的主要激励epoch。epochs中的高振幅值部分主导了互相关函数的计算。注意时延估计仅仅使用互相关函数的主峰来估计。在图1(d)中其它的大峰值是因为基音周期造成的。由于从LP残差的希尔伯特包络计算出来的PSR值相对于给定的有声段而言较高,故我们使用每帧的PSR来导出归一化权重函数,以便比较每种方法偏差、方差和均方根误差(RMSE, Root Mean Square Error)。

图2展示了50ms非语音段的互相关函数情况。即使对于非语音段来说,LP残差的希尔伯特包络的PSR依旧很高。但是PSR值取决于非语音段中突发脉冲的强度。注意,突发脉冲不需要是周期性的。因此,对于非语音段,希尔伯特包络也可以用于获得比其它方法PSR值高的峰值。

1 条留言  访客:0 条  博主:0 条   引用: 1 条

来自外部的引用: 1 条

  • 个人学习笔记整理 – 小奥の部落格

给我留言

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: