小奥的学习笔记

  • Home
  • Learning & Working
    • Speech Enhancement Notes
    • Programming language
    • Computer & DL
    • MOOC
  • Life
    • Life Time
    • Thinking & Comprehension
    • Volunteer
    • Plan
    • Travel
  • Footprints
  • GuestBook
  • About
    • About Me
    • 个人履历
    • 隐私策略
  1. 首页
  2. Study-notes
  3. Computer & DL
  4. 语音处理学习笔记
  5. 正文

语音信号处理学习笔记(1):语音的基本知识

2019年5月25日 1582点热度 0人点赞 1条评论
1.声音三要素:音调、音色、响度。
2.汉明窗的好处:选择一个窗函数主要是看它的主瓣宽度和旁瓣衰减,理论上主瓣宽度越窄越好,旁瓣衰减越大越好。汉明窗是相比来说性能比较好的一个窗函数,比如矩形窗,虽然主瓣宽度较窄,但是旁瓣衰减不如汉宁窗,所以谱泄漏比较严重。综合考虑来说汉明窗最好。
3.为何分帧:语音具有短时平稳性,但是长期来看并不平稳,为了利用这种平稳性,所以需要进行分帧,大约10~30ms。
4.为何重叠:实现两帧之间的平滑过渡、保持其连续性。
5.语音端点检测方法(语音活动检测)——两级判决法
(1)第一级判决。①先根据语音短时能量的轮廓选取一个较高的门限T1,进行一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外。②根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量所判断的语音段。
(2)第二级判决。以短时平均过零数为标准,从C点往左和D点往右搜索,找到短时平均过零数低于某个门限T3的两个点E和F,这便是语音段的起止点。门限T3是由背景噪声的平均过零数所确定的。
6.语音信号的数字化和预处理。为了将模拟语音信号转化为数字信号,需要经过取样和量化两个步骤,以得到时间和幅度均离散的信号。
取样是将时间上连续的信号离散化为样本序列,根据奈奎斯特采样定理,取样频率大于信号两倍宽度时,取样过程不会丢失信息,且取样信号可精确地重构原信号。若不满足取样定理,将产生频谱混叠,此时信号中的高频成分将产生失真。
取样后需要对信号进行量化,即将时间上离散而幅度仍然连续的波形再离散化。其过程是将整个幅度值分割为有限个区间,将落入同一区间的样本赋予相同的幅度值。若量化阶梯选择的足够小(如64),则信号幅度从一个取样值到相邻取样值的变化可能非常大,常跨越很多量化阶梯。这样产生的量化噪声接近平稳白噪声过程。一般而言,8bit时的噪声自相关函数几乎为冲激函数,与白噪声的过程相一致。
总的来说语音信号处理系统框图如下
为了防止混叠失真和噪声干扰,所以要设置一个反混叠滤波器。平滑滤波器的作用是对重构的语音波形的高次谐波起平滑作用。
 
7.短时能量分析
短时平均能量的定义:
8.基音周期估值
基音周期是表征语音信号本质特征的参数,只有准确分析病体区域出语音信号的特征参数,才能进行语音编码、语音合成和语音识别等处理。基音周期估值最基本的方法主要有两种:基于短时自相关法的基因周期估值和基于短时平均幅度差函数的基音周期估值。
本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: 学习笔记 语音
最后更新:2019年5月25日

davidcheung

这个人很懒,什么都没留下

打赏 点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

搜索
欢迎关注我的个人公众号
最新 热点 随机
最新 热点 随机
DEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架 奥地利匈牙利九日游旅程 论文阅读之Study of the General Kalman Filter for Echo Cancellation 小奥看房之鸿荣源珈誉府 杭州往返旅途及西溪喜来登和万怡的体验报告 2022年的第一篇碎碎念
奥地利匈牙利九日游旅程小奥看房之鸿荣源珈誉府论文阅读之Study of the General Kalman Filter for Echo CancellationDEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架
生活点滴0829:捣鼓捣鼓博客的内容 [leetcode]populating next right pointers in each node 山东省高校第四届机器人大赛获奖名单公示 WP 嘀:嘀咕的 WordPress 插件 A very interesting View 悲剧了~
标签聚合
leetcode 高中 鸟哥的linux私房菜 Python Java 学习 生活 linux python学习 算法
最近评论
davidcheung 发布于 5 个月前(02月09日) The problem has been fixed. May I ask if you can s...
tk88 发布于 5 个月前(02月07日) Hmm is anyone else having problems with the pictur...
cuicui 发布于 8 个月前(10月20日) :wink:
niming 发布于 10 个月前(09月19日) 同级校友,能刷到太巧了
davidcheung 发布于 2 年前(08月16日) 我得找一下我之前整理的word文档看一下,如果找到了我就更新一下这篇文章。
Nolan 发布于 2 年前(07月25日) 您的笔记非常有帮助。贴图不显示了,可以更新一下吗?
davidcheung 发布于 3 年前(06月19日) 到没有看webrtc的代码。现在主要在看我们公司的代码了。。。只是偶尔看一看webrtc的东西。。。
aobai 发布于 3 年前(03月13日) gain_change_hangover_ 应该是每三个block 只能够调整一次,这样保证每帧...
匿名 发布于 5 年前(12月30日) 烫
小奥 发布于 5 年前(12月12日) webRTC里面的NS本身我记得就是在C++里面呀

COPYRIGHT © 2025 小奥的学习笔记. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

陕ICP备19003234号-1

鲁公网安备37120202000100号