你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
什么是语音转文本?
本概述介绍了语音服务的语音转文本功能的优点和功能,该功能是 Azure AI 服务的一部分。 语音转文本可用于将音频流实时或批量听录为文本。
有关可用的语音转文本语言的完整列表,请参阅语言和语音支持。
实时语音转文本
使用实时语音转文本时,当从麦克风或文件中识别出语音时,会对音频进行听录。 对于需要实时听录音频的应用程序,请使用实时语音转文本,例如:
实时语音转文本是通过语音 SDK 和 语音 API 提供的。
批量听录
批量听录用于听录存储中的大量音频。 你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。 对需要批量听录音频的应用程序使用批量听录,例如:
- 预录制音频的口述文本、描述文字或字幕
- 联系中心调用后分析
- 分割聚类
可通过以下方式提供批量听录:
- 语音转文本 REST API:要开始使用,请参阅如何使用批量听录和批量听录示例 (REST)。
- 语音 CLI支持实时听录和批量听录。 有关批量听录的语音 CLI 帮助,请运行以下命令:
spx help batch transcription
自定义语音
借助自定义语音,可以评估应用程序与产品的语音识别并提高其准确度。 自定义语音模型可用于实时语音转文本、语音翻译和批量听录。
现成的语音识别可利用通用语言模型作为一个基本模型(使用 Microsoft 自有数据进行训练),并反映常用的口语。 此基础模型使用了代表各常见地域的方言和发音进行了预先训练。 发出语音识别请求时,默认使用每个支持的语言的最新基础模型。 基础模型在大多数语音识别场景中都效果良好。
通过提供文本数据来训练模型,自定义模型可用于扩充基本模型,以提高对特定于应用程序的特定领域词汇的识别。 它还可用于通过为音频数据提供参考听录内容,来改进基于应用程序的特定音频条件的识别。 有关详细信息,请参阅自定义语音识别和语音转文本 REST API。
自定义选项因语言或区域设置而异。 若要验证是否支持,请参阅对语音服务的语言和语音支持。
负责任 AI
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 阅读透明度说明,了解如何在系统中负责任地使用和部署 AI。