WebRTC Voice Activity Detection

1 关于WebRTC VAD

1.1 WebRTC VAD简介

其实在WebRTC的VAD中用到了一个很重要的方法的思想，这个方法就是聚类。实际上我们都可以知道，分出来的只有两个类，一是语音二是噪声。我们要对每一帧信号都求语音和噪声的概率，然后根据概率来进行聚类。那么，选择怎样的特征来作为高斯分布的输入呢？这种特征的选取可是关系着VAD性能是好是坏。我们的思想就是寻找噪声和语音相差最大的特征，或者说尽可能大的特征。

众所周知，信号的处理分类主要有时域、频域和空域。首先从空域上看，WebRTC的VAD是基于单个麦克风的，噪声和语音没有空间区分度的概念；然后从时域上看，是时变信号，且短时信号变化率比较小，所以总的来说，频域的区分度是比较好的。

我们可以发现，噪声和语音在频谱上差异还是非常大的，且以一个一个的波峰和波谷来表现。基于此，WebRTC VAD将频带分为了6个子带：80Hz~250Hz，250Hz~500Hz，500Hz~1K，1K~2K，2K~3K，3K~4K，在程序里面分别对应了分别对应于feature_vector [0]，feature_vector [1]，feature_vector [2]，feature_vector [3]，feature_vector [4]，feature_vector [5]。之所以最高为4k是因为，WebRTC在处理的时候采样率统一调整为了8kHz，所以根据奈奎斯特定理，用于的频率就是4kHz以下。

可以看到以1KHz为分界，向下500HZ，250Hz以及170HZ三个段，向上也有三个段，每个段是1KHz，这一频段涵盖了语音中绝大部分的信号能量，且能量越大的子带的区分度越细致。由于我国交流电标准是220V~50Hz，电源50Hz的干扰会混入麦克风采集到的数据中且物理震动也会带来影响，所以取了80Hz以上的信号。

WebRTC VAD使用的是GMM（高斯混合模型）进行分类，使Noise作为一类，Speech作为一类，两类求求后验概率，并且实时更新GMM参数。

WebRTC VAD只能工作在采样率为8000Hz的模式下，故对16kHz、32kHz、48kHz都需要进行重新采样来转换到8000Hz。目前程序仅支持8000Hz、16kHz、32kHz和48kHz。

总的来说，WebRTC VAD分为以下几步：

1.创建句柄（WebRtcVad_Create()）。

2.初始化句柄（WebRtcVad_Init()）。

3.设置VAD的工作模式（WebRtcVad_set_mode()），VAD的工作模式主要有以下四种：

4.判断当前语音文件的采样率，若采样率小于8000Hz，直接退出；若采样率不为8000Hz，则进行下采样，将高采样率重新采样到8000Hz，然后进行VAD判决；若采样率为8000Hz，则直接进行VAD判决。

5.进行VAD判决。首先计算6个子带的能量，分别保存到feature_vector[0]~feature_vector[5]（WebRtcVad_CalculateFeatures()）。然后通过高斯混合模型分别计算语音和非语音的概率，使用假设检验的方法确定信号的类型（GmmProbability()）。首先通过高斯模型计算假设检验中的H0和H1（C代码是用h0_test和h1_test表示），通过门限判决vadflag；然后更新概率计算所需要的语音均值(speech_means)、噪声的均值(noise_means)、语音方差(speech_stds) 和噪声方差(noise_stds)。

1.2 整体函数框图

2 函数关系图谱

2.1 主体函数关系

2.2 核心处理函数关系

3 逐个函数的讲解

3.1 WebRtcVad_CalculateFeatures()

WebRTC VAD中，对上面划分的每一个子带计算其能量，然后计算到目前为止总的能量（total_energy）。如果total_energy没有超过kMinEnergy，则对total_energy进行更新，更新的方法就是在kMinEnergy上面加个数字（程序里面是+1）。total_energy是在GmmProbability()中用作能量的指示符。

这个函数里面用到了两个滤波器，一个滤波器是子带划分滤波器SplitFilter()，它就是将频率范围内数据分隔成两个频率范围，用于子带划分；一个是高通滤波器HighPassFilter()，用来过滤到0~80Hz信号的。