2019深度学习语音合成指南

作者：栗峰时间：2019-09-02来源：雷锋网收藏

编者按：追赶最前沿~

雷锋网AI科技评论编者按：人工合成人类语音被称为语音合成。这种基于机器学习的技术适用于文本转换语音（text-to-speech）、音乐生成、语音生成、语音支持设备、导航系统以及为视障人士提供无障碍服务。

本文引用地址：http://www.amcfsurvey.com/article/201909/404379.htm

在这篇文章中，我们将研究基于深度学习而进行的研究或模型框架。

在我们正式开始之前，我们需要简要概述一些特定的、传统的语音合成策略：拼接和参数化。

拼接方法，需要使用大型数据库中的语音来拼接生成新的可听语音。在需要不同语音风格的情况下，必须使用新的音频数据库，这极大的限制了这种方法的可扩展性。

参数化方法则是用一条记录下的人的声音以及一个含参函数，通过调节函数参数来改变语音。

这两种方法代表了传统的语音合成方法。现在让我们来看看使用深度学习的新方法。为了探索当前流行的语音合成方法，我们研究了这些：

●WaveNet: 原始音频生成模型

●Tacotron:端到端的语音合成

●Deep Voice 1：实时神经文本语音转换

●Deep Voice 2：多说话人神经文本语音转换

●Deep Voice 3：带有卷积序列学习的尺度文本语音转换

●Parallel WaveNet：快速高保真语音合成

●利用小样本的神经网络语音克隆

●VoiceLoop：通过语音循环进行语音拟合与合成

●利用梅尔图谱预测上的条件WaveNet进行自然TTS合成

WaveNet：原始音频生成模型

这篇文章的作者来自谷歌。他们提出了一种能产生原始音频波的神经网络。他们的模型是完全概率的和自回归的，在英语和汉语的text-to-speech上都取得了最先进的结果。

文章链接: https://arxiv.org/abs/1609.03499

图1

WaveNET是基于PixelCNN的音频生成模型，它能够产生类似于人类发出的声音。

图2

在这个生成模型中，每个音频样本都以先前的音频样本为条件。条件概率用一组卷积层来建模。这个网络没有池化层，模型的输出与输入具有相同的时间维数。

图3

在模型架构中使用临时卷积可以确保模型不会违反数据建模的顺序。在该模型中，每个预测语音样本被反馈到网络上用来帮助预测下一个语音样本。由于临时卷积没有周期性连接，因此它们比RNN训练地更快。

使用临时卷积的主要挑战之一是，它们需要很多层来增加感受野。为了解决这一难题，作者使用了加宽的卷积。加宽的卷积使只有几层的网络能有更大的感受野。模型使用了Softmax分布对各个音频样本的条件分布建模。

图4

这个模型在多人情景的语音生成、文本到语音的转换、音乐音频建模等方面进行了评估。测试中使用的是平均意见评分(MOS)，MOS可以评测声音的质量，本质上就是一个人对声音质量的评价一样。它有1到5之间的数字，其中5表示质量最好。

图5

下图显示了1-5级waveNet的语音质量：

图6

Tacotron：端到端的语音合成

这篇文章的作者来自谷歌。 Tacotron是一种端到端的生成性文本转化语音的模型，可直接从文本和音频对合形成语音。Tacotron在美式英语上获得3.82分的平均得分。Tacotron是在帧级生成语音，因此比样本级自回归的方法更快。

文章链接：https://arxiv.org/abs/1703.10135

这个模型是在音频和文本对上进行的训练，因此它可以非常方便地应用到新的数据集上。Tacotron是一个seq2seq模型，该模型包括一个编码器、一个基于注意力的解码器以及一个后端处理网络（post-processing net）。如下框架图所示，该模型输入字符，输出原始谱图。然后把这个谱图转换成波形图。