你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

什么是文本转语音的个人声音？

2025-06-05

借助个人声音功能，你可以支持用户在几秒钟内通过 AI 生成自己语音的复制语音。使用发音人声明以及作为音频提示的简短语音样本，你可以为用户创建个人声音，并允许他们以 100 多个区域设置支持的 90 多种语言生成语音。

注意

在以下区域可以使用个人声音：西欧、美国东部、美国西部 2、东南亚和东亚。有关支持的区域设置，请参阅个人语音语言支持。

下表总结了个人语音与专业语音之间的差异。

比较	个人语音	专业声音
目标方案	企业客户生成一个应用，以允许其用户在应用中创建和使用自己的个人语音。	专业方案，如聊天机器人的品牌和角色语音，或音频内容阅读。
用例	仅限于有限的用例。请参阅透明度说明。批准的客户应有一个支持超过 1,000 种个人语音的计划。	仅限于有限的用例。请参阅透明度说明。
训练数据	请确保遵守行为准则。	自带数据。建议在专业录音室录音。
所需的数据大小	一分钟的人类讲话。	300-2000 条语句（大约 30 分钟到 3 小时的人类语音）。
定型时间	不超过 5 秒	大约 20-40 个计算小时。
语音质量	Natural	高度自然
多语言支持	是的。该语音能够讲大约 100 种语言，并启用自动语言检测。	是的。需要选择“神经 - 跨语言”功能来训练讲述语言不同于训练数据语言的模型。
可用性	注册后即可在 Speech Studio 上观看演示。对 API 的访问仅限符合条件的客户和已批准的用例。通过填写表单请求访问权限。	只有在获得访问权限批准后，才能使用专业语音微调。根据资格和使用条件，专业语音微调访问受到限制。通过填写表单请求访问权限。
定价	请在此处¹查看定价详细信息。	请在此处查看定价详细信息。
负责任的 AI 要求	需要讲话人的口头声明。不允许未经批准的用例。	需要讲话人的口头声明。不允许未经批准的用例。

¹ 请注意，个人声音定价将仅在提供该功能的服务区域中可见，包括西欧、美国东部、美国西部 2、东南亚和东亚。

尝试演示

如果有 S0 资源，可以在 Speech Studio 中访问个人声音演示。要使用个人声音 API，可在此处申请访问权限。

转到 Speech Studio
选择“个人语音”卡。
你可以录制自己的语音，并尝试以不同语言创建语音输出示例。演示包括个人语音支持的一部分语言。

如何创建个人语音

若要开始，请参阅以下创建个人语音的步骤摘要：

创建项目。
上传同意文件。使用个人语音功能时，在创建每段语音之前都必须经得用户的明确同意。需要用户提供录制的声明，确认客户（Azure AI 语音资源所有者）将创建并使用其语音。
获取个人语音的说话人配置文件 ID。根据说话人的口头同意声明和音频提示获取说话人配置文件 ID。用户的声音特征在用于文本转语音的 speakerProfileId 属性中进行了编码。

拥有个人语音后，可以使用它以 100 多种区域设置支持的任何 91 种语言合成语音。不需要区域设置标记。个人语音在句子级别使用自动语言检测。有关详细信息，请参阅在应用程序中使用个人语音。

提示

请查看 GitHub 上的语音 SDK 存储库中的代码示例，了解如何在应用程序中使用个人声音。

参考文档

自定义语音 Azure REST API 参考文档

负责任 AI

我们关心使用 AI 的人以及将受其影响的人，就像我们关心技术一样。有关详细信息，请参阅负责任 AI 透明度说明。

后续步骤

创建项目。
在概述中详细了解自定义语音。
有关 Speech Studio 的详细信息，请参阅概述。