你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

选择 Azure AI 语音识别和生成技术

2025-06-21

Azure AI 服务可帮助工作负载设计人员和开发人员使用开箱即用、预构建且可自定义的 API 和模型创建智能、尖端、市场就绪且负责任的应用程序。

本文介绍了提供语音识别和生成功能的 AI 服务，例如语音到文本和文本到语音的转换、音频翻译和说话人识别。它还包括为有学习差异的人提供阅读支持。

注意

若要收集有关术语或短语的见解，或获取对口语或书面语言的详细上下文分析，请参阅选择 Azure AI 目标语言处理技术。

服务

以下 AI 服务可以为您的工作负载提供语音识别和生成功能。

Microsoft Azure AI 语音为文本分析提供自然语言处理。
- 用语音当您需要转录或翻译口语并确定对话中的说话人时。与 OpenAI 模型中更高质量的 Whisper 系统相比，您还可以使用语音作为成本较低的替代方案来生成听起来自然的语音。
- 不要使用 用于聊天、内容摘要、审核或指导用户完成脚本的语音。请改用其他模型进行这些操作。
沉浸式阅读器是一种工具，它实现了可靠的技术来提高萌发期读者、语言学习者和具有学习差异的人士的阅读理解力。
- 使用沉浸式阅读器为语言学习者或有学习差异的人提供改进的可读性体验。
- 不要使用 适用于传统文本转语音用例的沉浸式阅读器。

演讲

Speech 通过 Speech 资源提供语音转文本和文本转语音功能。您可以高精度地转录语音到文本、生成听起来自然的文本到语音、翻译口语音频以及在对话中使用说话人识别。创建自定义语音、将特定字词添加到基本词汇中，或生成自己的模型。随时随地运行 Speech，无论是在云中还是在容器的边缘。

语音支持多种语言和区域。

能力

下表提供了 Speech 中可用的功能列表。

能力	说明
批量听录	转录存储中的大量音频数据。语音转文本 REST API 和语音 CLI 都支持批量听录。
意向识别	Intent 是用户想要执行的作，例如预订航班、查看天气或拨打电话。意图识别使您的应用程序、工具和设备能够根据选项确定用户想要启动或执行的作。您可以在意向识别器或对话语言理解模型中定义用户意向。
发音评估	评估语音发音，并为说话人提供有关讲话音频准确度和流利度的反馈。
说话人识别	“说话人识别”可以帮助确定在某个音频剪辑中说话的人是谁。该服务使用语音生物识别技术，通过说话人的独特语音特征来验证和识别说话人。
语音转文本	实时或批处理将音频流转换为文本。
文本转语音	使您的应用程序、工具或设备能够将文本转换为类似人类的合成语音。
语音翻译	提供音频流的多语言语音转语音和语音转文本翻译。
视频翻译	自动翻译和生成多种语言的视频。

用例

下表描述了您可以使用 Speech 的一些方式。

用例	可用的功能	说明
音频内容创建	语音转文本	使用神经语音，使与聊天机器人和语音助手的交互更加自然和引人入胜。将电子书等数字文本转换为有声读物，并增强车载导航系统。
呼叫中心听录	语音转文本	实时转录呼叫或处理一批呼叫，编辑个人身份信息，并提取情绪等见解，以帮助您处理呼叫中心使用案例。
字幕	语音转文本	将字幕与输入音频同步、应用亵渎内容过滤器、获得部分结果、应用自定义以及识别多语言场景的口语。
语言学习	语音转文本	向语言学习者提供发音评估反馈，支持远程学习对话的实时听录，并使用神经语音大声朗读教材。
语音助手	文本到语音转换	为应用程序和体验创建自然、类似人类的对话界面。语音助理功能在设备与助手实现之间提供快速且可靠的交互。

沉浸式阅读器

沉浸式阅读器是 AI 服务的一部分，是一种包容性设计的工具，它实施经过验证的技术来提高新读者、语言学习者和有学习差异（如阅读障碍）的人的阅读理解能力。借助沉浸式阅读器客户端库，您可以使用 Microsoft Word 和 Microsoft OneNote 中使用的相同技术为工作负载用户提供增强的体验。

能力

以下功能适用于您的工作负载，可帮助用户实现其阅读理解目标。

隔离内容以提高可读性。
显示常用单词和术语的图片。
通过突出显示动词、名词和代词来帮助理解词性和语法。
大声朗读内容，例如工作负载 UI 中的用户选择的文本。
将内容实时翻译成多种语言。这种方法有助于提高读者学习新语言的理解力。
将单词分成多个音节以提高可读性或读出新单词。

通过

选择 Azure AI 语音识别和生成技术

服务

演讲

能力

用例

沉浸式阅读器

能力

后续步骤

相关资源

反馈

其他资源