[论文笔记]Investigation on LP-residual representations for speaker identification

2020年1月31日 2297点热度 0人点赞 1条评论

Investigation on LP-residual representations for speaker identification

M. Chetouani, M.Faundez-Zanuy, B.Gas, J.L.Zarader

摘要

特征提取是语音识别系统的必要和重要的步骤。在本文中，我们提出了通过利用诸如梅尔频率倒谱编码（MFCC）、线性预测倒谱编码（LPCC）的常规帖子和非常规特征来改进这些系统。该方法利用线性预测残差信号中存在的信息，特征从残差中提取，然后组合到MFCC或LPCC中。我们研究了两种称为时域和频域表示的方法。第一个方法（时域方法）包括了一个信号自回归（AR）建模，然后以类似于LPC-LPCC变换的方式进行倒谱变换。为了考虑语音信号的非线性特性，我们使用了两种基于二阶统计和三阶统计的估计方法，它们分别称为R-SOS-LPCC（residual plus second-order statistic based estimation of the AR model plus cepstral transformation，基于残差和二阶统计量的自回归模型加上倒谱变换的估计）和R-HOS-LPCC（H为高阶）。第二个方法（频域方法），我们采用了一种称为子带谱功率差异（PDSS，power difference of spectra in sub-band）的滤波器组方法，该方法测量子带上的频谱平坦度。这种方法得到的特征被命名为R-PDSS。这些提出的方法是使用两个不同数据库的说话人识别问题进行分析。第一个数据库是Gaudi数据库，包含49个说话人，该数据库的主要区别点在于受控的采集条件：麦克风与间隔会话之间的不匹配。第二个数据库是注明的NTIMIT，有630个说话者。在这里我并不关心所以后面不再记录。

关键词：特征提取；说话人识别；线性预测残差；非线性语音处理

Introduction

在过去数十年，人们在为提升语音识别性能而设计有效特征方面做出了许多努力，提出了许多方法。例如，Jang等提出了一种基于通过独立成分分析（ICA）的语音信号分解方法，它主要包括一种用于统计特征提取的基础函数的优化，得出的特征，与Gabor wavelets类似，与TIMIT的子集的DCT相比对于说话者识别率提升了7.7%。遵循语音产生模型，许多专家试图来提取说话者特征，例如声门信息。Maryetal利用自动联想神经网络潜力来捕获短片段（10~30毫秒）和从线性预测分析中提取的子段（1~5毫秒）特征。这不仅可以对传统的谱特征进行建模，还可以对源和相位建模。这些特征的组合在说话人鉴别方面表现出来了良好的性能。尽管有这些研究，这些最先进（state-of-art）的系统大多数是基于梅尔倒谱频率编码（MFCC）或者线性预测倒谱编码（LPCC）。实际上，这些短期特征已经在性能方面证明了它们的有效性，并且适用于GMMs（高斯混合模型）。

在这项研究中，我们提出了一种与传统特征之一（MFCC或LPCC）一起使用额外特征来提高识别率的方法。这些特征基于线性预测残差信号。论文探究了用于传统说话人识别系统的有效框架的不同表示形式。实际上，在LPCC的系统中，线性预测残差特征的提取不需要太多计算。

本文结构如下，第二章进行了LP残差分析的相关工作。第三章进行了分别基于时域和频域模型的不同表现形式。第四章中讲述了所提出的表示方式在两种不同数据库的测试，第一个数据库是Gaudi数据库，它可以控制不同条件下的性能：会话之间间隔和麦克风的不匹配；第二个数据库是NTIMIT。第五章讨论了时延的结果。最后，本文给出了结论和所提出的方法的未来计划。

Related works and problem

考虑到语音的产生过程，我们通常假设信号是声道激励的结果。在线性预测分析框架之下，声道与滤波器（线性预测编码滤波器，LPC）相关，激励与残差信号相关。线性预测分析在于通过最小化预测误差来对LPC系数进行估计。预测出来的采样点结果

是由过去p个样点的线性组合得到的：

LPC系数ak与声道有关，也有可能捕获一部分说话者相关的信息。事实上，从这些系数中得出的特征（即LPCC）在说话人识别中大量使用。参数p（滤波器阶数）在语音识别任务重起着主要作用，最佳的得分是在12阶（即p=12）时获得，但是在说话人识别中，最常用的阶数是16（即p=16）。

在传统LP分析中，残差是通过当前样本与预测样本之间的误差得到的，即：

理论上来说，残差与语音信号不相关，而是与依赖于说话者的激励相关。这些特征被称为源特征。但是，最近的一些在非线性语音处理的研究表明，源滤波器模型不适合语音产生建模。在语音产生过程中出现的现象（phenomena）不同是非线性并且是混乱的。从这些非线性处理的研究中，我们可以得到的假设是在语音信号和残差中存在一种依赖关系。

给定期望采样信号s(n)，残差r是将原始信号与期望信号相减得到的（如式），残差应到包括所有没有被滤波器（公式）建模的信息。滤波器系数估计是基于不能对非高斯过程建模的二阶分析（即协方差、自相关）。有一点可以假定的是，由于估计准确度（p阶、算法本身、噪声等带来的影响）的缺乏，残差不仅需要被高阶统计量来建模，还必须通过二阶统计量。基于这些考虑，可以用多种方法对残差进行建模。由于残差的非线性特性，非线性建模是几种方法中常用的之一。这种方法的结果展示出了潜力（potential）并且真实了非线性的存在。例如，Thyssen等人所做的一项有意义的工作，显示了由于需要使用多种LPC方法来去除残差中的非线性，残差中的非线性是存在的。但是，由于自适应的方法可能会带来接近的高斯残差信号，所以这种方法需要谨慎对待。我们可以使用其它的解决方案，如使用小波变换得到残差的小波倍频程系数。

在本项研究中，我们提出利用以下事实：残差会传递所有LPC滤波器没有建模的信息（参阅公式）。与以前所提出的那些主要基于机器学习或信号处理的方法不同，本文采用的方法是基于时域（AR模型的二阶统计或高阶统计）和频率（滤波器组）组合的模型。这些研究旨在表明残留语音信号处理在说话人识别任务重的潜力。从残差中提取的特征可以用作LPCC甚至是MFCC的补充特征。

本作品采用知识共享署名 4.0 国际许可协议进行许可