Investigation on LP-residual representations for speakeridentification

M. Chetouani, M.Faundez-Zanuy, B.Gas,J.L.Zarader

摘要

    特征提取是语音识别系统的必要和重要的步骤。在本文中,我们提出了通过利用诸如梅尔频率倒谱编码(MFCC)、线性预测倒谱编码(LPCC)的常规帖子和非常规特征来改进这些系统。该方法利用线性预测残差信号中存在的信息,特征从残差中提取,然后组合到MFCC或LPCC中。我们研究了两种称为时域和频域表示的方法。第一个方法(时域方法)包括了一个信号自回归(AR)建模,然后以类似于LPC-LPCC变换的方式进行倒谱变换。为了考虑语音信号的非线性特性,我们使用了两种基于二阶统计和三阶统计的估计方法,它们分别称为R-SOS-LPCC(residual plus second-order statistic based estimation of the ARmodel plus cepstral transformation,基于残差和二阶统计量的自回归模型加上倒谱变换的估计)和R-HOS-LPCC(H为高阶)。第二个方法(频域方法),我们采用了一种称为子带谱功率差异(PDSS,powerdifference of spectra in sub-band)的滤波器组方法,该方法测量子带上的频谱平坦度。这种方法得到的特征被命名为R-PDSS。这些提出的方法是使用两个不同数据库的说话人识别问题进行分析。第一个数据库是Gaudi数据库,包含49个说话人,该数据库的主要区别点在于受控的采集条件:麦克风与间隔会话之间的不匹配。第二个数据库是注明的NTIMIT,有630个说话者。在这里我并不关心所以后面不再记录。

关键词:特征提取;说话人识别;线性预测残差;非线性语音处理

Introduction

    在过去数十年,人们在为提升语音识别性能而设计有效特征方面做出了许多努力,提出了许多方法。例如,Jang等提出了一种基于通过独立成分分析(ICA)的语音信号分解方法,它主要包括一种用于统计特征提取的基础函数的优化,得出的特征,与Gabor wavelets类似,与TIMIT的子集的DCT相比对于说话者识别率提升了7.7%。遵循语音产生模型,许多专家试图来提取说话者特征,例如声门信息。Maryetal利用自动联想神经网络潜力来捕获短片段(10~30毫秒)和从线性预测分析中提取的子段(1~5毫秒)特征。这不仅可以对传统的谱特征进行建模,还可以对源和相位建模。这些特征的组合在说话人鉴别方面表现出来了良好的性能。尽管有这些研究,这些最先进(state-of-art)的系统大多数是基于梅尔倒谱频率编码(MFCC)或者线性预测倒谱编码(LPCC)。实际上,这些短期特征已经在性能方面证明了它们的有效性,并且适用于GMMs(高斯混合模型)。

在这项研究中,我们提出了一种与传统特征之一(MFCC或LPCC)一起使用额外特征来提高识别率的方法。这些特征基于线性预测残差信号。论文探究了用于传统说话人识别系统的有效框架的不同表示形式。实际上,在LPCC的系统中,线性预测残差特征的提取不需要太多计算。

本文结构如下,第二章进行了LP残差分析的相关工作。第三章进行了分别基于时域和频域模型的不同表现形式。第四章中讲述了所提出的表示方式在两种不同数据库的测试,第一个数据库是Gaudi数据库,它可以控制不同条件下的性能:会话之间间隔和麦克风的不匹配;第二个数据库是NTIMIT。第五章讨论了时延的结果。最后,本文给出了结论和所提出的方法的未来计划。

Related works and problem

    考虑到语音的产生过程,我们通常假设信号是声道激励的结果。在线性预测分析框架之下,声道与滤波器(线性预测编码滤波器,LPC)相关,激励与残差信号相关。线性预测分析在于通过最小化预测误差来对LPC系数进行估计。预测出来的采样点结果

是由过去p个样点的线性组合得到的:

    LPC系数ak与声道有关,也有可能捕获一部分说话者相关的信息。事实上,从这些系数中得出的特征(即LPCC)在说话人识别中大量使用。参数p(滤波器阶数)在语音识别任务重起着主要作用,最佳的得分是在12阶(即p=12)时获得,但是在说话人识别中,最常用的阶数是16(即p=16)。

    在传统LP分析中,残差是通过当前样本与预测样本之间的误差得到的,即:

    理论上来说,残差与语音信号不相关,而是与依赖于说话者的激励相关。这些特征被称为源特征。但是,最近的一些在非线性语音处理的研究表明,源滤波器模型不适合语音产生建模。在语音产生过程中出现的现象(phenomena)不同是非线性并且是混乱的。从这些非线性处理的研究中,我们可以得到的假设是在语音信号和残差中存在一种依赖关系。

    给定期望采样信号s(n),残差r是将原始信号与期望信号相减得到的(如式),残差应到包括所有没有被滤波器(公式)建模的信息。滤波器系数估计是基于不能对非高斯过程建模的二阶分析(即协方差、自相关)。有一点可以假定的是,由于估计准确度(p阶、算法本身、噪声等带来的影响)的缺乏,残差不仅需要被高阶统计量来建模,还必须通过二阶统计量。基于这些考虑,可以用多种方法对残差进行建模。由于残差的非线性特性,非线性建模是几种方法中常用的之一。这种方法的结果展示出了潜力(potential)并且真实了非线性的存在。例如,Thyssen等人所做的一项有意义的工作,显示了由于需要使用多种LPC方法来去除残差中的非线性,残差中的非线性是存在的。但是,由于自适应的方法可能会带来接近的高斯残差信号,所以这种方法需要谨慎对待。我们可以使用其它的解决方案,如使用小波变换得到残差的小波倍频程系数。

在本项研究中,我们提出利用以下事实:残差会传递所有LPC滤波器没有建模的信息(参阅公式)。与以前所提出的那些主要基于机器学习或信号处理的方法不同,本文采用的方法是基于时域(AR模型的二阶统计或高阶统计)和频率(滤波器组)组合的模型。这些研究旨在表明残留语音信号处理在说话人识别任务重的潜力。从残差中提取的特征可以用作LPCC甚至是MFCC的补充特征。