深度学习及其在语音处理中的应用综述

2017年8月20日 1761点热度 0人点赞 0条评论

1. 前言

人工智能是当前的一个热点话题，从当前Google旗下的AlphaGO到智能汽车，人工智能已经步入我们生活的方方面面。

机器学习是一种实现人工智能的方法，这种方法是用算法来分析数据，然后从中学习，最后对现实做出预测和决策。而深度学习，则是机器学习的一种技术。从上个世纪七八十年代BP算法的出现及其在神经网络中的应用，很大推进了机器学习的发展。这种算法基于梯度下降法基础之上，并且适合于多层神经网络之中。这个阶段只包含一层隐藏层节点，因此此阶段被称为浅层学习。到2006年以后，随着研究的继续深入，模型包含层次越来越多，深度学习在工程方面的应用得到巨大发展。

2 深度学习

深度学习，与浅层学习相比，顾名思义，其包含隐藏节点的层数往往在5层以上，并且其是通过提取每一层特征，将样本在原来空间的特征变换到一个新的特征空间来表示原来的数据。

深度学习主要分为以下几类：

（1）监督学习。就是用标签的数据调整所有层的权值和阈值，然后对网络进行微调。

（2）非监督学习。与监督学习相反，其是用无标签数据进行每一层预训练，然后将其训练结果作为高一层的输入。

（3）半监督学习。顾名思义，就是将监督学习与非监督学习相结合，部分层采用监督学习，部分层采用非监督学习。此种类型在实际中应用最为广泛。

目前常用的深度学习模型主要有：

（1）卷积神经网络（CNNs）。这是一种前馈神经网络，即各神经元分层排列，每个神经元只与前一层的神经元相连，接受前一层的输出，并输出给下一层。它包括卷积层和池层。目前其主要用来识别位移、缩放和其他形式的二维图形。

（2）递归神经网络（RNNs）。其分为两类，一为时间递归神经网络，其神经元间连接构成有向图；二为结构递归神经网络，利用相似的神经网络结构递归构造更为复杂的深度网络。递归神经网络中，不仅包含前馈连接，还有单元之间的自连接或者到前面层的连接，可以当做短期记忆，使网络记得过去的事情。

（3）限制玻尔兹曼机（RBM）。限制玻尔兹曼机是一种无监督学习模型，子模块有两层，每层中各节点之间是没有连接的，第一层为可视层，第二层为隐藏层，其关系如图2.1所示。一个 RBM 中包含权值、可视层偏置、隐藏层偏置这三个模型参数。

图2.1 可视层与隐藏层关系图

（4）自动编码器（AE）。其同样是一种无监督学习模型，是由自动关联器演变而来的。自动关联器是一种MLP结构，其中输出、输入维度一样，并定义输出等于输入。为了能够在输出层重新产生输入，MLP得找出输入在隐藏层的最佳表示。一旦训练完成，从输入到隐藏层的第一层充当编码器，而隐层单元的值形成编码表示。从隐藏单元到输出单元的第二层充当解码器，由原信号的编码表示重构原信号。

3 深度学习在语音处理中的应用

随着人工智能的发展，人与计算机之间的自由交互也变得越来越重要，语音处理则是其中的重要一环。现阶段，语音处理主要包括语音识别、语音合成等技术。

语音识别是一种将人类所表述语言转换成文字的技术，目前国内外许多著名的科技企业，如谷歌、微软、讯飞等都在此领域有深入研究，在生活中，例如苹果Siri、微软Cortana等也被得到广泛应用，极大的方便了人们的生活。

语音识别的过程如图3.1所示。首先是对输入的训练语音信号进行预处理和提取特征，并训练声学模型；而语言模型则是通过从训练语料学习词或句之间的相互关系，来估计假设词序列的可能性；解码搜索是对测试语音也经过预处理和特征提取后的特征向量序列与若干假设词序列计算声学模型分数与语言模型分数，最后将总体输出分数最高的词序列当做识别结果。

图3.1 语音识别过程

语音合成是通过机械的、电子的方法产生人造语音的技术。百度于2017年3月推出了实时语音合成神经网络系统（Real-Time Neural Text-to-Speech for Production），定名为Deep Voice，它由5个部分组成：用于定位音素边界的分割模型；用于字素转音素的转换模型；判断音素能持续多长时间的预测模型；基频预测模型；音频合成模型。在同样的 CPU 与 GPU 上，系统比起谷歌 DeepMind 的WaveNet 要快400倍。其过程如图3.2所示。

图3.2 Deep Voice过程图

第一步是将字素转换为音素，利用一个简单的音素字典，把每个句子直接转换为对应的音素；第二步是持续时间的预测，因为音素应该基于上下文来决定它们或长或短的持续时间，另外，还需要做基本频率预测，即图中的F0。最后一步，就是合并音素、持续时间和频率，得出输出声音。

4 结束语

人工智能领域现在十分火爆，越来越多的人投入到人工智能相关领域之中。在这几天通过阅读了多篇相关论文以及观看了Andrew Ng（吴恩达）教授的机器学习视频，使我对深度学习有了初步的了解。我认识到，未来深度学习在包括语音处理、图像处理在内的多个领域都会有更加广泛的发展，前景十分广阔。通过写这一篇综述，我整理了自己的一些笔记，希望自己在三年研究生生活中沉下心来，努力钻研，取得进步。

注：本综述在撰写过程中参考了多篇相关论文，在此对相关研究者表示一并感谢。

本作品采用知识共享署名 4.0 国际许可协议进行许可