你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是语音服务?

语音服务通过 Azure 语音资源提供语音转文本和文本转语音功能。 你可以十分准确地将语音听录为文本,生成听起来很自然的文本转语音声音,翻译语音音频,并在对话期间使用说话人辨识。

突出显示部分语音服务功能的磁贴图像。

创建自定义语音、将特定字词添加到基本词汇中,或生成自己的模型。 在任意位置(云中或容器的边缘)运行语音。 使用语音 CLI语音 SDKSpeech StudioREST API 可以轻松在应用程序、工具和设备中启用语音。

语音适用于许多语言区域价位

语音方案

语音的常见方案包括:

  • 字幕:了解如何将字幕与输入音频同步、应用亵渎内容过滤器、获得部分结果、应用自定义以及识别多语言场景的口语。
  • 音频内容创建:你可以使用神经语音,使得与聊天机器人和语音助手的交流更加自然且富有吸引力、将数字文本(如电子书)转换为有声读物,以及增强车载导航系统。
  • 呼叫中心:实时听录呼叫或处理一批呼叫,编修个人身份信息,并提取情绪等见解,有助于为呼叫中心用例提供帮助。
  • 语音助理:为其应用程序和体验创建自然的人性化对话界面。 语音助理功能在设备与助理实现之间提供快速可靠的交互。

Microsoft 将语音用于许多方案,例如 Teams 中的字幕、Office 365 中的听写,以及 Edge 浏览器中的大声朗读功能。

显示使用语音服务的 Microsoft 产品的徽标图像。

语音功能

下面提供了语音功能摘要,其中包含详细信息的链接。

语音转文本

使用语音转文本将音频实时或异步听录为文本。

将音频转换为来自一系列源(包括麦克风、音频文件和 Blob 存储)的文本。 使用说话人分割聚类来确定谁说了什么话以及说话时间。 获取具有自动格式设置和标点符号的可读脚本。

如果音频包含环境噪音或包含很多特定于行业和领域的术语,则基础模型可能不够用。 在这些情况下,可以使用声学、语言和发音数据创建和训练自定义语音识别模型。 自定义语音识别模型是专用的,具有竞争优势。

可以通过此演示 Web 应用Speech Studio 尝试语音转文本。

文本转语音

使用文本转语音,可以将输入文本转换为类似人声的合成语音。 使用神经语音,这是由深度神经网络提供支持的类人语音。 使用语音合成标记语言 (SSML) 来微调音节、发音、语速、音量等特征。

  • 预生成的神经语音:很自然的现成语音。 查看此处的预生成神经语音示例,确定适合你的业务需求的语音。
  • 自定义神经语音:除了现成的预生成神经语音外,还可以创建具有品牌或产品辨识度和独特性的自定义神经语音。 自定义神经语音是私有的,可以提供竞争优势。 在此处查看自定义神经语音样本。

语音翻译

使用语音翻译可在应用程序、工具和设备中实现实时的多语言语音翻译。 实施语音转语音和语音转文本翻译时可以使用此功能。

语言识别

语言标识用于在与支持的语言列表进行比较时确定音频中说话人的语言。 借助语音转文本识别或语音翻译,让语言自身识别语言。

说话人辨识

说话人辨识提供的算法可通过说话人的独特语音特征来验证和识别说话者。 说话人识别用于回答“谁在说话?”的问题。

发音评估

发音评估可以评估语音发音,并为说话人提供有关讲话音频准确度和流利度的反馈。 通过发音评估,语言学习者可以练习、获得即时反馈并改进其发音,因此能够自信地讲话和演示。

意向识别

意向识别:将语音转文本与语言理解 (LUIS) 结合使用,从听录的语音中获取用户意向,并根据语音命令采取行动。

交付和存在

可以在云或本地部署 Azure 认知服务语音功能。

借助容器,可以出于合规性、安全性或其他运营原因使服务更接近数据。

主权云中的语音服务部署适用于某些政府实体及其合作伙伴。 例如,Azure 政府云适用于美国政府实体及其合作伙伴。 Azure 中国云可供在中国开展业务的组织使用。 有关详细信息,请参阅主权云

显示语音服务的部署和访问位置的关系图。

在应用程序中使用语音

Speech Studio 是一组基于 UI 的工具,用于在应用程序中生成和集成 Azure 认知服务语音服务的功能。 通过使用无代码方法在 Speech Studio 中创建项目,然后通过使用语音 SDK语音 CLI 或 REST API 来引用应用程序中的资产。

语音 CLI 是一种命令行工具,用于在不编写任何代码的情况下使用语音服务。 语音 SDK 中的大部分功能都可在语音 CLI 中使用,一些高级功能和自定义设置在语音 CLI 中进行了简化。

语音 SDK 公开了许多语音服务功能,这些功能可用于开发支持语音的应用程序。 语音 SDK 可以在许多编程语言中和所有平台中使用。

在某些情况下,不能或不应使用语音 SDK。 在这些情况下,可以使用 REST API 访问语音服务。 例如,使用适用于批量听录的 REST API 和说话人辨识 REST API。

入门

我们提供许多常用编程语言的快速入门。 每个快速入门旨在让你了解基本设计模式并帮助你在 10 分钟以内运行代码。 请参阅以下列表,了解每项功能的快速入门:

代码示例

GitHub 上提供了语音服务的示例代码。 这些示例涵盖了常见方案,例如,从文件或流中读取音频、连续和单次识别,以及使用自定义模型。 使用以下链接查看 SDK 和 REST 示例:

后续步骤