你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

什么是语音转文本？

本概述介绍了语音服务的语音转文本功能的优点和功能，该功能是 Azure AI 服务的一部分。语音转文本可用于将音频流实时或批量听录为文本。

注意

有关可用的语音转文本语言的完整列表，请参阅语言和语音支持。

实时语音转文本

使用实时语音转文本时，当从麦克风或文件中识别出语音时，会对音频进行听录。对于需要实时听录音频的应用程序，请使用实时语音转文本，例如：

实时语音转文本是通过语音 SDK 和语音 API 提供的。

批量听录用于听录存储中的大量音频。你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。对需要批量听录音频的应用程序使用批量听录，例如：

可通过以下方式提供批量听录：

语音转文本 REST API：要开始使用，请参阅如何使用批量听录和批量听录示例 (REST)。
语音 CLI支持实时听录和批量听录。有关批量听录的语音 CLI 帮助，请运行以下命令：
```
spx help batch transcription
```

借助自定义语音，可以评估应用程序与产品的语音识别并提高其准确度。自定义语音模型可用于实时语音转文本、语音翻译和批量听录。

提示

无需托管部署终结点即可将自定义语音识别与批量听录 API 配合使用。如果自定义语音模型仅用于批量听录，则可以节省资源。有关详细信息，请参阅语音服务定价。

现成的语音识别可利用通用语言模型作为一个基本模型（使用 Microsoft 自有数据进行训练），并反映常用的口语。此基础模型使用了代表各常见地域的方言和发音进行了预先训练。发出语音识别请求时，默认使用每个支持的语言的最新基础模型。基础模型在大多数语音识别场景中都效果良好。

通过提供文本数据来训练模型，自定义模型可用于扩充基本模型，以提高对特定于应用程序的特定领域词汇的识别。它还可用于通过为音频数据提供参考听录内容，来改进基于应用程序的特定音频条件的识别。有关详细信息，请参阅自定义语音识别和语音转文本 REST API。

自定义选项因语言或区域设置而异。若要验证是否支持，请参阅对语音服务的语言和语音支持。

AI 系统不仅包括技术，还包括使用它的人员、受其影响的人员以及部署它的环境。阅读透明度说明，了解如何在系统中负责任地使用和部署 AI。