如何解决在微软 Azure 自定义神经文本转语音服务中遇到的语音质量不一致问题。

BOYANG NIU 0

我们近期在 Azure 语音工作室中训练了一个定制的神经语音模型，并已将其用于将文本转换为语音，以生成音频内容。然而，在合成的音频输出中，我们遇到了几个明显的问题。

具体而言，生成的语音通常会表现出：

句子或片段之间的声音音调不一致。

音高波动（有时过高或过低的情况较为不自然），以及

音量或距离不规律，使得声音时而听起来离得近，时而听起来离得远。

我们希望弄清楚这些问题是否是由训练数据所导致的——比如语气的不一致、录音环境的差异或者说话者的表现问题——还是说在“语音工作室”中是否有相应的调整或微调方法，能够帮助提升生成语音的稳定性和一致性。

你的答案