你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

什么是自定义语音？

2025-06-05

自定义语音是语音转语音功能，可用于为应用程序创建一种自定义的合成语音。使用自定义语音，可以通过提供人工语音示例作为微调数据，为品牌或角色构建高度自然的声音。

重要

自定义语音访问根据资格和使用条件受到限制。在引入表单上请求访问。

现成的文本转语音可以与每种受支持语言的标准语音一起使用。如果不需要唯一语音，则标准语音在大多数文本转语音方案中都效果良好。

自定义语音基于神经文本转语音技术和多语言多说话人通用模型。你可以创建具有丰富说话风格或适应性十足的跨语言的合成语音。自定义语音的现实和自然的声音可以代表品牌，个性化计算机，并允许用户与应用程序对话交互。请参阅自定义语音支持的语言。

它是如何工作的？

若要创建自定义语音，请使用 Speech Studio 上传录制的音频和相应的脚本，训练模型，并将语音部署到自定义终结点。

创建出色的自定义语音需要在每个步骤中仔细进行质量控制，从语音设计和数据准备到将语音模型部署到系统。

在开始使用 Speech Studio 之前，需要注意以下事项：

使用角色简介文档设计表示你的品牌的一种声音角色。本文档定义了一些元素，如声音功能和声音后面的字符。这有助于指导创建自定义语音模型的过程，包括定义脚本、选择语音人才、培训和语音优化。
选择表示语音的用户方案的录制内容脚本。例如，如果要创建客户服务机器人，可使用机器人会话中的短语作为录制内容的脚本。在脚本中包括不同的语句类型，包括陈述句、疑问句和感叹句。

下面是在 Speech Studio 中创建自定义语音的步骤概述：

创建一个项目来包含你的数据、语音模型、测试和终结点。每个项目特定于一个国家/区域和语言。如果要创建多个语音，建议为每个语音创建一个项目。
设置发音人。在优化专业语音之前，必须提交语音人才同意声明的音频录音。语音人才声明是指语音人才录制的一份声明，表明他们同意将其语音数据用于专业语音微调。
准备微调数据，确保采用正确的格式。最好在专业的录音棚中捕获录音内容，以获得较高的信噪比。语音模型的质量在很大程度上取决于微调数据。需要一致的音量、语速、音调和一致的语音表达风格。
训练你的声音模型。选择至少 300 个话语以创建自定义语音。上传后，系统会自动执行一系列数据质量检查。若要生成高质量的声音模型，应修复所有错误并再次提交。
测试你的声音。为声音模型准备测试脚本，其中应涵盖应用的不同用例。最好在训练数据集内部和外部使用脚本，以便可以更广泛地测试不同内容的质量。
在应用中部署和使用你的声音模型。

你可以优化、调整和使用定制声音，就像使用标准语音一样。实时将文本转换为语音，或者使用文本输入来脱机生成音频内容。使用 REST API、语音 SDK或 Speech Studio。

提示

请查看 GitHub 上的语音 SDK 存储库中的代码示例，了解如何在应用程序中使用自定义语音。

经过训练的声音模型的风格和特征取决于用于训练的发音人的录音风格和质量。但在向声音模型发出 API 调用以生成合成语音时，可使用 SSML（语音合成标记语言）进行几项调整。 SSML 是标记语言，用于与文本转语音服务通信以将文本转换为音频。可以进行的调整包括改变音调、语速、声调和发音纠正。如果声音模型是用多种风格生成的，也可使用 SSML 来切换风格。

组件序列

自定义语音由三个主要组件组成：文本分析器、神经声学模型和神经语音编码器。为了从文本生成自然合成语音，文本会首先输入到文本分析器中，后者以音素序列的形式提供输出。音素是一种基本声音单位，可区分特定语言中的不同字词。音素序列定义文本中提供的字词的发音。

接下来，音素序列会进入神经网络声学模型，以预测定义语音信号的声学特征。声学特征包括音色、说话风格、语速、语调和重音模式。最后，神经网络声码器会将声学特性转换为可听见的波形，以便生成合成语音。

显示自定义语音组件的流程图。

神经网络文本转语音模型基于人类声音的录制样本，使用深度神经网络进行训练。有关详细信息，请参阅此 Microsoft 博客文章。若要详细了解如何训练神经网络声码器，请参阅此 Microsoft 博客文章。

负责任 AI

AI 系统不仅包括技术，还包括使用它的人员、受其影响的人员以及部署它的环境。阅读透明度说明，了解如何在系统中负责任地使用和部署 AI。

通过

什么是自定义语音？

它是如何工作的？

组件序列

负责任 AI

后续步骤

反馈

其他资源