语音信号处理学习笔记（1）：语音的基本知识

2019年5月25日 1635点热度 0人点赞 1条评论

1.声音三要素：音调、音色、响度。

2.汉明窗的好处：选择一个窗函数主要是看它的主瓣宽度和旁瓣衰减，理论上主瓣宽度越窄越好，旁瓣衰减越大越好。汉明窗是相比来说性能比较好的一个窗函数，比如矩形窗，虽然主瓣宽度较窄，但是旁瓣衰减不如汉宁窗，所以谱泄漏比较严重。综合考虑来说汉明窗最好。

3.为何分帧：语音具有短时平稳性，但是长期来看并不平稳，为了利用这种平稳性，所以需要进行分帧，大约10~30ms。

4.为何重叠：实现两帧之间的平滑过渡、保持其连续性。

5.语音端点检测方法（语音活动检测）——两级判决法

（1）第一级判决。①先根据语音短时能量的轮廓选取一个较高的门限T1，进行一次粗判：语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外。②根据背景噪声的平均能量确定一个较低的门限T2，并从A点往左、从B点往右搜索，分别找到短时能量包络与门限T2相交的两个点C和D，于是CD段就是用双门限方法根据短时能量所判断的语音段。

（2）第二级判决。以短时平均过零数为标准，从C点往左和D点往右搜索，找到短时平均过零数低于某个门限T3的两个点E和F，这便是语音段的起止点。门限T3是由背景噪声的平均过零数所确定的。

6.语音信号的数字化和预处理。为了将模拟语音信号转化为数字信号，需要经过取样和量化两个步骤，以得到时间和幅度均离散的信号。

取样是将时间上连续的信号离散化为样本序列，根据奈奎斯特采样定理，取样频率大于信号两倍宽度时，取样过程不会丢失信息，且取样信号可精确地重构原信号。若不满足取样定理，将产生频谱混叠，此时信号中的高频成分将产生失真。

取样后需要对信号进行量化，即将时间上离散而幅度仍然连续的波形再离散化。其过程是将整个幅度值分割为有限个区间，将落入同一区间的样本赋予相同的幅度值。若量化阶梯选择的足够小(如64)，则信号幅度从一个取样值到相邻取样值的变化可能非常大，常跨越很多量化阶梯。这样产生的量化噪声接近平稳白噪声过程。一般而言，8bit时的噪声自相关函数几乎为冲激函数，与白噪声的过程相一致。

总的来说语音信号处理系统框图如下