个人翻译,水平有限,仅供参考。 摘要 我们展示了Deep Voice,一个完全由深度神经网络构建的生产质量的文本到语音系统。 Deep Voice为真正的端到端神经语音合成奠定了基础。该系统包括五个主要构件:用于定位音素边界的分段模型,字形到音素转换模型,音素持续时间预测模型,基频预测模型和音频合成模型。对于分割模型,我们提出了一种使用连接主义时间分类(CTC)丢失的深度神经网络进行音素边界检测的新方法。对于音频合成模型,我们实现了WaveNet的一个变体,它需要更少的参数,并且训练速度比原来的要快。通过对每个组件…