开发人员技术 | Visual Studio | 其他
一系列Microsoft集成开发工具套件,用于构建适用于 Windows、Web、移动设备和其他许多平台的应用程序。 不属于特定类别的其他主题。
我们近期在 Azure 语音工作室中训练了一个定制的神经语音模型,并已将其用于将文本转换为语音,以生成音频内容。然而,在合成的音频输出中,我们遇到了几个明显的问题。
具体而言,生成的语音通常会表现出:
句子或片段之间的声音音调不一致。
音高波动(有时过高或过低的情况较为不自然),以及
音量或距离不规律,使得声音时而听起来离得近,时而听起来离得远。
我们希望弄清楚这些问题是否是由训练数据所导致的——比如语气的不一致、录音环境的差异或者说话者的表现问题——还是说在“语音工作室”中是否有相应的调整或微调方法,能够帮助提升生成语音的稳定性和一致性。