你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
什么是文本转语音的个人声音?
借助个人声音功能,你可以支持用户在几秒钟内通过 AI 生成自己语音的复制语音。 使用发音人声明以及作为音频提示的简短语音样本,你可以为用户创建个人声音,并允许他们以 100 多个区域设置支持的 90 多种语言生成语音。
注意
个人语音在以下区域中可用:西欧、美国东部和东南亚。 有关支持的区域设置,请参阅个人语音语言支持。
下表汇总了个人语音和专业神经网络定制声音之间的差别。
比较 | 个人语音 | 专业声音 |
---|---|---|
目标方案 | 企业客户生成一个应用,以允许其用户在应用中创建和使用自己的个人语音。 | 专业方案,如聊天机器人的品牌和角色语音,或音频内容阅读。 |
用例 | 仅限于有限的用例。 请参阅透明度说明。 批准的客户应有一个支持超过 1,000 种个人语音的计划。 | 仅限于有限的用例。 请参阅透明度说明。 |
训练数据 | 请确保遵守行为准则。 | 自带数据。 建议在专业录音室录音。 |
所需的数据大小 | 一分钟的人类讲话。 | 300-2000 条语句(大约 30 分钟到 3 小时的人类语音)。 |
定型时间 | 不超过 5 秒 | 大约 20-40 个计算小时。 |
语音质量 | Natural | 高度自然 |
多语言支持 | 是的。 该语音能够讲大约 100 种语言,并启用自动语言检测。 | 是的。 需要选择“神经 - 跨语言”功能来训练讲述语言不同于训练数据语言的模型。 |
可用性 | 注册后即可在 Speech Studio 上观看演示。 对 API 的访问仅限符合条件的客户和已批准的用例。 通过填写表单请求访问权限。 | 只有在访问获得批准后,才能训练和部署 CNV 专业版模型。 CNV 专业版访问权限根据资格和使用标准受到限制。 通过填写表单请求访问权限。 |
定价 | 请在此处1查看定价详细信息。 | 请在此处查看定价详细信息。 |
负责任的 AI 要求 | 需要讲话人的口头声明。 不允许未经批准的用例。 | 需要讲话人的口头声明。 不允许未经批准的用例。 |
1 请注意,个人声音定价将仅在提供该功能的服务区域中可见,包括西欧、美国东部和东南亚。
尝试演示
如果有 S0 资源,可以在 Speech Studio 中访问个人声音演示。 要使用个人声音 API,可在此处申请访问权限。
选择“个人语音”卡。
你可以录制自己的语音,并尝试以不同语言创建语音输出示例。 演示包括个人语音支持的一部分语言。
如何创建个人语音
若要开始,请参阅以下创建个人语音的步骤摘要:
- 创建项目。
- 上传同意文件。 使用个人语音功能时,在创建每段语音之前都必须经得用户的明确同意。 需要用户提供录制的声明,确认客户(Azure AI 语音资源所有者)将创建并使用其语音。
- 获取个人语音的说话人配置文件 ID。 根据说话人的口头同意声明和音频提示获取说话人配置文件 ID。 用户的声音特征在用于文本转语音的
speakerProfileId
属性中进行了编码。
拥有个人语音后,可以使用它以 100 多种区域设置支持的任何 91 种语言合成语音。 不需要区域设置标记。 个人语音在句子级别使用自动语言检测。 有关详细信息,请参阅在应用程序中使用个人语音。
提示
请查看 GitHub 上的语音 SDK 存储库中的代码示例,了解如何在应用程序中使用个人声音。
参考文档
负责任 AI
我们关心使用 AI 的人以及将受其影响的人,就像我们关心技术一样。 有关详细信息,请参阅负责任 AI 透明度说明。