小奥的学习笔记

  • Home
  • Learning & Working
    • Speech Enhancement Notes
    • Programming language
    • Computer & DL
    • MOOC
  • Life
    • Life Time
    • Thinking & Comprehension
    • Volunteer
    • Plan
    • Travel
  • Footprints
  • GuestBook
  • About
    • About Me
    • 个人履历
    • 隐私策略
  1. 首页
  2. Study-notes
  3. Computer & DL
  4. 语音处理学习笔记
  5. 正文

[论文笔记]Investigation on LP-residual representations for speaker identification

2020年1月31日 1926点热度 0人点赞 1条评论

Investigation on LP-residual representations for speaker identification

M. Chetouani, M.Faundez-Zanuy, B.Gas, J.L.Zarader

摘要

    特征提取是语音识别系统的必要和重要的步骤。在本文中,我们提出了通过利用诸如梅尔频率倒谱编码(MFCC)、线性预测倒谱编码(LPCC)的常规帖子和非常规特征来改进这些系统。该方法利用线性预测残差信号中存在的信息,特征从残差中提取,然后组合到MFCC或LPCC中。我们研究了两种称为时域和频域表示的方法。第一个方法(时域方法)包括了一个信号自回归(AR)建模,然后以类似于LPC-LPCC变换的方式进行倒谱变换。为了考虑语音信号的非线性特性,我们使用了两种基于二阶统计和三阶统计的估计方法,它们分别称为R-SOS-LPCC(residual plus second-order statistic based estimation of the AR model plus cepstral transformation,基于残差和二阶统计量的自回归模型加上倒谱变换的估计)和R-HOS-LPCC(H为高阶)。第二个方法(频域方法),我们采用了一种称为子带谱功率差异(PDSS,power difference of spectra in sub-band)的滤波器组方法,该方法测量子带上的频谱平坦度。这种方法得到的特征被命名为R-PDSS。这些提出的方法是使用两个不同数据库的说话人识别问题进行分析。第一个数据库是Gaudi数据库,包含49个说话人,该数据库的主要区别点在于受控的采集条件:麦克风与间隔会话之间的不匹配。第二个数据库是注明的NTIMIT,有630个说话者。在这里我并不关心所以后面不再记录。

关键词:特征提取;说话人识别;线性预测残差;非线性语音处理

Introduction

    在过去数十年,人们在为提升语音识别性能而设计有效特征方面做出了许多努力,提出了许多方法。例如,Jang等提出了一种基于通过独立成分分析(ICA)的语音信号分解方法,它主要包括一种用于统计特征提取的基础函数的优化,得出的特征,与Gabor wavelets类似,与TIMIT的子集的DCT相比对于说话者识别率提升了7.7%。遵循语音产生模型,许多专家试图来提取说话者特征,例如声门信息。Maryetal利用自动联想神经网络潜力来捕获短片段(10~30毫秒)和从线性预测分析中提取的子段(1~5毫秒)特征。这不仅可以对传统的谱特征进行建模,还可以对源和相位建模。这些特征的组合在说话人鉴别方面表现出来了良好的性能。尽管有这些研究,这些最先进(state-of-art)的系统大多数是基于梅尔倒谱频率编码(MFCC)或者线性预测倒谱编码(LPCC)。实际上,这些短期特征已经在性能方面证明了它们的有效性,并且适用于GMMs(高斯混合模型)。

在这项研究中,我们提出了一种与传统特征之一(MFCC或LPCC)一起使用额外特征来提高识别率的方法。这些特征基于线性预测残差信号。论文探究了用于传统说话人识别系统的有效框架的不同表示形式。实际上,在LPCC的系统中,线性预测残差特征的提取不需要太多计算。

本文结构如下,第二章进行了LP残差分析的相关工作。第三章进行了分别基于时域和频域模型的不同表现形式。第四章中讲述了所提出的表示方式在两种不同数据库的测试,第一个数据库是Gaudi数据库,它可以控制不同条件下的性能:会话之间间隔和麦克风的不匹配;第二个数据库是NTIMIT。第五章讨论了时延的结果。最后,本文给出了结论和所提出的方法的未来计划。

Related works and problem

    考虑到语音的产生过程,我们通常假设信号是声道激励的结果。在线性预测分析框架之下,声道与滤波器(线性预测编码滤波器,LPC)相关,激励与残差信号相关。线性预测分析在于通过最小化预测误差来对LPC系数进行估计。预测出来的采样点结果

是由过去p个样点的线性组合得到的:

    LPC系数ak与声道有关,也有可能捕获一部分说话者相关的信息。事实上,从这些系数中得出的特征(即LPCC)在说话人识别中大量使用。参数p(滤波器阶数)在语音识别任务重起着主要作用,最佳的得分是在12阶(即p=12)时获得,但是在说话人识别中,最常用的阶数是16(即p=16)。

    在传统LP分析中,残差是通过当前样本与预测样本之间的误差得到的,即:

    理论上来说,残差与语音信号不相关,而是与依赖于说话者的激励相关。这些特征被称为源特征。但是,最近的一些在非线性语音处理的研究表明,源滤波器模型不适合语音产生建模。在语音产生过程中出现的现象(phenomena)不同是非线性并且是混乱的。从这些非线性处理的研究中,我们可以得到的假设是在语音信号和残差中存在一种依赖关系。

    给定期望采样信号s(n),残差r是将原始信号与期望信号相减得到的(如式),残差应到包括所有没有被滤波器(公式)建模的信息。滤波器系数估计是基于不能对非高斯过程建模的二阶分析(即协方差、自相关)。有一点可以假定的是,由于估计准确度(p阶、算法本身、噪声等带来的影响)的缺乏,残差不仅需要被高阶统计量来建模,还必须通过二阶统计量。基于这些考虑,可以用多种方法对残差进行建模。由于残差的非线性特性,非线性建模是几种方法中常用的之一。这种方法的结果展示出了潜力(potential)并且真实了非线性的存在。例如,Thyssen等人所做的一项有意义的工作,显示了由于需要使用多种LPC方法来去除残差中的非线性,残差中的非线性是存在的。但是,由于自适应的方法可能会带来接近的高斯残差信号,所以这种方法需要谨慎对待。我们可以使用其它的解决方案,如使用小波变换得到残差的小波倍频程系数。

在本项研究中,我们提出利用以下事实:残差会传递所有LPC滤波器没有建模的信息(参阅公式)。与以前所提出的那些主要基于机器学习或信号处理的方法不同,本文采用的方法是基于时域(AR模型的二阶统计或高阶统计)和频率(滤波器组)组合的模型。这些研究旨在表明残留语音信号处理在说话人识别任务重的潜力。从残差中提取的特征可以用作LPCC甚至是MFCC的补充特征。

本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: 特征提取 线性预测残差 说话人识别 非线性语音处理
最后更新:2020年1月31日

davidcheung

这个人很懒,什么都没留下

打赏 点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

搜索
欢迎关注我的个人公众号
最新 热点 随机
最新 热点 随机
DEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架 奥地利匈牙利九日游旅程 论文阅读之Study of the General Kalman Filter for Echo Cancellation 小奥看房之鸿荣源珈誉府 杭州往返旅途及西溪喜来登和万怡的体验报告 2022年的第一篇碎碎念
奥地利匈牙利九日游旅程论文阅读之Study of the General Kalman Filter for Echo CancellationDEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架
曾经的自己[转载] 班级记忆百宝箱第一版网站架设完毕 [Leetcode]copy list with random pointer An English eBooks download website 初四第一次月考技术分析 算法笔记之分支限界法(1)
标签聚合
算法 鸟哥的linux私房菜 生活 python学习 高中 学习 linux leetcode Python Java
最近评论
davidcheung 发布于 5 个月前(02月09日) The problem has been fixed. May I ask if you can s...
tk88 发布于 5 个月前(02月07日) Hmm is anyone else having problems with the pictur...
cuicui 发布于 9 个月前(10月20日) :wink:
niming 发布于 10 个月前(09月19日) 同级校友,能刷到太巧了
davidcheung 发布于 2 年前(08月16日) 我得找一下我之前整理的word文档看一下,如果找到了我就更新一下这篇文章。
Nolan 发布于 2 年前(07月25日) 您的笔记非常有帮助。贴图不显示了,可以更新一下吗?
davidcheung 发布于 3 年前(06月19日) 到没有看webrtc的代码。现在主要在看我们公司的代码了。。。只是偶尔看一看webrtc的东西。。。
aobai 发布于 3 年前(03月13日) gain_change_hangover_ 应该是每三个block 只能够调整一次,这样保证每帧...
匿名 发布于 5 年前(12月30日) 烫
小奥 发布于 5 年前(12月12日) webRTC里面的NS本身我记得就是在C++里面呀

COPYRIGHT © 2025 小奥的学习笔记. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

陕ICP备19003234号-1

鲁公网安备37120202000100号