你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是语音转文本?

本概述介绍了语音服务的语音转文本功能的优点和功能,该功能是 Azure AI 服务的一部分。 语音转文本可用于将音频流实时批量听录为文本。

注意

要比较实时批量听录的定价,请参阅语音服务定价

有关可用的语音转文本语言的完整列表,请参阅语言和语音支持

实时语音转文本

使用实时语音转文本时,当从麦克风或文件中识别出语音时,会对音频进行听录。 对于需要实时听录音频的应用程序,请使用实时语音转文本,例如:

实时语音转文本是通过语音 SDK语音 API 提供的。

批量听录

批量听录用于听录存储中的大量音频。 你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。 对需要批量听录音频的应用程序使用批量听录,例如:

  • 预录制音频的口述文本、描述文字或字幕
  • 联系中心调用后分析
  • 分割聚类

可通过以下方式提供批量听录:

自定义语音

借助自定义语音,可以评估应用程序与产品的语音识别并提高其准确度。 自定义语音模型可用于实时语音转文本语音翻译批量听录

提示

无需托管部署终结点即可将自定义语音识别与批量听录 API 配合使用。 如果自定义语音模型仅用于批量听录,则可以节省资源。 有关详细信息,请参阅语音服务定价

现成的语音识别可利用通用语言模型作为一个基本模型(使用 Microsoft 自有数据进行训练),并反映常用的口语。 此基础模型使用了代表各常见地域的方言和发音进行了预先训练。 发出语音识别请求时,默认使用每个支持的语言的最新基础模型。 基础模型在大多数语音识别场景中都效果良好。

通过提供文本数据来训练模型,自定义模型可用于扩充基本模型,以提高对特定于应用程序的特定领域词汇的识别。 它还可用于通过为音频数据提供参考听录内容,来改进基于应用程序的特定音频条件的识别。 有关详细信息,请参阅自定义语音识别语音转文本 REST API

自定义选项因语言或区域设置而异。 若要验证是否支持,请参阅对语音服务的语言和语音支持

负责任 AI

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 阅读透明度说明,了解如何在系统中负责任地使用和部署 AI。

后续步骤