《实时语音处理实践指南》学习笔记：第三章

第三章语音端点检测（VAD） WebRTC中集成了基于RNN模型的VAD检测算法，该方法也作为WebRTC新一代AGC算法的一个子模块而存在。第一节特征选取一个好的VAD特征应该具备以下特性：区分能力：含噪语音和仅含噪声音频的分离度应该尽可能的大。理论上的最好效果是让语音特征和噪声特征没有交集（实际很难，因为会有相似）噪声鲁棒性：背景噪声会造成语音失真，这会影响提取的特征区分能力。基于能量的特征：基于能量的方法可以将宽带语音分成各个子带，求各个子带的能量。这是因为语音在2kHz以下频带含有大量的能量，…