你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是文本转语音的个人声音?

借助个人声音功能,你可以支持用户在几秒钟内通过 AI 生成自己语音的复制语音。 使用发音人声明以及作为音频提示的简短语音样本,你可以为用户创建个人声音,并允许他们以 100 多个区域设置支持的 90 多种语言生成语音。

注意

个人语音在以下区域中可用:西欧、美国东部和东南亚。 有关支持的区域设置,请参阅个人语音语言支持

下表汇总了个人语音和专业神经网络定制声音之间的差别。

比较 个人语音 专业声音
目标方案 企业客户生成一个应用,以允许其用户在应用中创建和使用自己的个人语音。 专业方案,如聊天机器人的品牌和角色语音,或音频内容阅读。
用例 仅限于有限的用例。 请参阅透明度说明。 批准的客户应有一个支持超过 1,000 种个人语音的计划。 仅限于有限的用例。 请参阅透明度说明
训练数据 请确保遵守行为准则。 自带数据。 建议在专业录音室录音。
所需的数据大小 一分钟的人类讲话。 300-2000 条语句(大约 30 分钟到 3 小时的人类语音)。
定型时间 不超过 5 秒 大约 20-40 个计算小时。
语音质量 Natural 高度自然
多语言支持 是的。 该语音能够讲大约 100 种语言,并启用自动语言检测。 是的。 需要选择“神经 - 跨语言”功能来训练讲述语言不同于训练数据语言的模型。
可用性 注册后即可在 Speech Studio 上观看演示。 对 API 的访问仅限符合条件的客户和已批准的用例。 通过填写表单请求访问权限。 只有在访问获得批准后,才能训练和部署 CNV 专业版模型。 CNV 专业版访问权限根据资格和使用标准受到限制。 通过填写表单请求访问权限。
定价 请在此处1查看定价详细信息。 在此处查看定价详细信息
负责任的 AI 要求 需要讲话人的口头声明。 不允许未经批准的用例。 需要讲话人的口头声明。 不允许未经批准的用例。

1 请注意,个人声音定价将仅在提供该功能的服务区域中可见,包括西欧、美国东部和东南亚。

尝试演示

如果有 S0 资源,可以在 Speech Studio 中访问个人声音演示。 要使用个人声音 API,可在此处申请访问权限。

  1. 转到 Speech Studio

  2. 选择“个人语音”卡。

  3. 你可以录制自己的语音,并尝试以不同语言创建语音输出示例。 演示包括个人语音支持的一部分语言。

    Speech Studio 中个人声音演示体验的屏幕截图。

如何创建个人语音

若要开始,请参阅以下创建个人语音的步骤摘要:

  1. 创建项目
  2. 上传同意文件。 使用个人语音功能时,在创建每段语音之前都必须经得用户的明确同意。 需要用户提供录制的声明,确认客户(Azure AI 语音资源所有者)将创建并使用其语音。
  3. 获取个人语音的说话人配置文件 ID。 根据说话人的口头同意声明和音频提示获取说话人配置文件 ID。 用户的声音特征在用于文本转语音的 speakerProfileId 属性中进行了编码。

拥有个人语音后,可以使用它以 100 多种区域设置支持的任何 91 种语言合成语音。 不需要区域设置标记。 个人语音在句子级别使用自动语言检测。 有关详细信息,请参阅在应用程序中使用个人语音

提示

请查看 GitHub 上的语音 SDK 存储库中的代码示例,了解如何在应用程序中使用个人声音。

参考文档

负责任 AI

我们关心使用 AI 的人以及将受其影响的人,就像我们关心技术一样。 有关详细信息,请参阅负责任 AI 透明度说明

后续步骤

  • 创建项目
  • 有关神经网络定制声音的详细信息,请参阅概述
  • 有关 Speech Studio 的详细信息,请参阅概述