你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是文本转语音?

本概述介绍了语音服务的文本转语音功能的优点和功能,该功能是 Azure AI 服务的一部分。

文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。 文本转语音功能也称为语音合成。 使用类似于人类的现成预生成神经语音,或根据你的产品或品牌创建独特的自定义神经语音。 有关支持的声音、语言和区域设置的完整列表,请参阅语音服务的语言和声音支持

核心功能

文本转语音包括以下功能:

功能 总结 演示
预生成的神经网络声音(在定价页面中称为“神经网络”) 高度自然的现成语音。 创建 Azure 帐户和语音服务订阅,然后使用语音 SDK 或访问 Speech Studio 门户,并选择预生成的神经网络声音即可开始使用。 请查看定价详细信息 查看语音库,确定适合你的业务需求的语音。
自定义神经语音(在定价页面中称为“自定义神经” 易于使用的自助服务,可创建自然的品牌语音并限制访问,使用户以负责的态度使用。 创建 Azure 帐户和语音服务订阅(使用 S0 层),并申请使用神经网络定制功能。 获得访问权限后,访问 Speech Studio 门户,选择“定制声音”即可开始使用。 请查看定价详细信息 查看语音示例

关于神经网络文本转语音功能的详细信息

文本转语音使用深度神经网络,使计算机的声音与人类录音几乎无法区分。 神经网络文本转语音可提供清晰的发音,显著减轻用户在与 AI 系统交互时的听力疲劳。

口语中的重音和语调模式称为韵律。 传统的文本转语音系统将韵律分解为单独的语言分析和声学预测步骤,这些步骤由独立的模型控制。 这可能会导致语音合成杂乱、声调不一。

下面是有关语音服务中的神经网络文本转语音功能的详细信息,以及它们如何克服传统的文本转语音系统的限制:

  • 实时语音合成 - 使用语音 SDKREST API 通过预生成的神经网络语音自定义神经网络语音将文本转换为语音。

  • 长音频的异步合成:使用批量合成 API(预览版)异步合成 10 分钟以上的文本转语音文件(例如有声书籍或讲座)。 与通过语音 SDK 或语音转文本 REST API 执行的合成不同的是,响应不会实时返回。 预期会异步发送请求,轮询响应,并在服务可用时下载合成音频。

  • 预生成的神经网络语音 - Microsoft 神经网络文本转语音功能将使用深度神经网络来克服传统语音合成在口语的重音和语调方面的局限性。 韵律预测和语音合成以同步方式发生,使输出听起来更流畅且自然。 每个预生成的神经语音模型在 24 kHz 和高保真 48 kHz 下可用。 你可以使用神经网络声音执行以下操作:

    • 让与聊天机器人和语音助手的互动更加自然和吸引人。
    • 将电子书等数字文本转换为有声读物。
    • 增强车内导航系统。

    有关平台神经网络声音的完整列表,请参阅语音服务的语言和声音支持

  • 使用 SSML 优化文本转语音输出:语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,用于对文本转语音输出进行自定义。 使用 SSML,你可以调整音调、添加暂停、改进发音、更改语速、调整音量,以及将多个语音归属到单个文档。

    可以使用 SSML 定义自己的词典或切换到不同的说话风格。 使用多语言语音,还可通过 SSML 调整口语。 若要微调方案的语音输出,请参阅使用语音合成标记语言改进合成和使用音频内容创建工具进行语音合成。

  • 视素 - 视素是观察到的语音中的关键姿态,包括在产生特定音素时嘴唇、下巴和舌头的位置。 视素与语音和音素有很强的关联性。

    通过在语音 SDK 中使用视素事件,可以生成面部动画数据。 此数据用于制作唇读交流、教育、娱乐和客户服务等方面的面部动画。 视素目前仅支持 en-US(美式英语)神经网络声音

备注

我们计划在 2024 年停用传统/标准语音和非神经网络定制声音。 之后,我们将不再支持它们。

如果你的应用程序、工具或产品目前正在使用任何标准语音和定制声音,则必须迁移到神经网络版本。 有关详细信息,请参阅迁移到神经网络声音

入门

若要开始使用文本转语音,请参阅快速入门。 文本转语音通过语音 SDKREST API语音 CLI 提供。

提示

若要使用无代码方法将文本转换为语音,请尝试在 Speech Studio 中使用有声内容创作工具。

代码示例

GitHub 上提供了文本转语音的示例代码。 这些示例涵盖了大多数流行编程语言形式的文本转语音转换:

神经网络定制声音

除了预生成的神经网络声音外,还可以创建和微调产品或品牌独有的神经网络定制声音。 只需准备好几个音频文件和关联的听录内容即可开始。 有关详细信息,请参阅自定义神经语音入门

定价说明

计费字符

使用文本转语音功能时,将按照转换为语音的每个字符(包括标点)付费。 尽管 SSML 文档本身不计费,但用于调整文本转语音方式的可选元素(例如音素和音节)将算作计费字符。 下面列出了计费的内容:

  • 在请求的 SSML 正文中传递给文本转语音功能的文本
  • 请求正文的文本字段中所有 SSML 格式的标记,<speak><voice> 标记除外
  • 字母、标点、空格、制表符、标记和所有空白字符
  • Unicode 中定义的每个码位

有关详细信息,请参阅语音服务定价

重要

每个汉字算作两个计费字符,包括日文汉字、韩文汉字或其他语言中用到的汉字。

神经网络定制声音的模型训练和托管时间

神经网络定制声音训练和托管均按小时计算,并按秒计费。 有关计费单价,请参阅语音服务定价

神经网络定制声音 (CNV) 训练时间通过“计算小时数”(一种度量计算机运行时间的单位)来度量。 通常,在训练语音模型时,两个计算任务并行运行。 因此,算出的计算小时数将长于实际训练时间。 平均而言,训练一个 CNV 精简版语音需要不到一个计算小时;而对于 CNV 专业版,训练一个单一风格的语音通常需要 20 到 40 个计算小时,训练一个多风格的语音通常需要大约 90 个计算小时。 CNV 训练时间的计费上限为 96 个计算小时。 因此,如果语音模型在 98 个计算小时内训练,则只需支付 96 个计算小时的费用。

神经网络定制声音 (CNV) 终结点托管按实际时间(小时)度量。 每个终结点的托管时间(小时)在前 24 小时内每天 00:00 UTC 计算。 例如,如果终结点在第一天处于活动状态 24 小时,则将在第二天的 00:00 UTC 按 24 小时对其计费。 如果该终结点是新创建的或在当天暂停,则将按在第二天 00:00 UTC 之前其累积的运行时间对其计费。 如果终结点当前未托管,则不会对其计费。 除了每天 00:00 UTC 的每日计算外,在删除或暂停终结点时也会立即触发计费。 例如,对于在 12 月 1 日 08:00 UTC 创建的终结点,托管小时数在 12 月 2 日 00:00 UTC 和 12 月 3 日 00:00 UTC 将分别被计算为 16 小时和 24小时。 如果用户在 12 月 3 日 16:30 UTC 暂停托管终结点,则将计算 12 月 3 日 00:00 至 16:30 UTC 的持续时间(16.5 小时)以进行计费。

参考文档

负责任 AI

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 阅读透明度说明,了解如何在系统中负责任地使用和部署 AI。

后续步骤