你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

语音转文本 REST API

语音转文本 REST API 用于批量听录和自定义语音识别。

重要

语音转文本 REST API 版本 2024-11-15 是正式发布的最新版本。

语音转文本 REST API 版本 2024-05-15-preview 即将停用，具体日期待宣布。
语音转文本 REST API v3.0、 v3.1、 v3.2， 3.2-preview.1将于 3.2-preview.2 2026 年 3 月 31 日停用。

有关升级的详细信息，请参阅语音转文本 REST API v3.0 到 v3.1、v3.1 到 v3.2 和 v3.2 到 2024-11-15 迁移指南。

使用语音转文本 REST API：

快速听录：听录音频文件，同步返回结果，速度比实时音频快得多。需要以可预测的延迟尽快听录音频录制内容时（例如快速音频或视频听录或视频翻译），请使用快速听录 API (/speechtotext/transcriptions:transcribe)。
批量听录：从多个 URL 或 Azure 容器批量听录音频文件。在需要转录存储中大量音频（如大量文件或长音频文件）的情况下，使用批量听录 API（/speechtotext/transcriptions：submit）。
自定义语音识别：上传自己的数据、测试和训练自定义模型、比较模型之间的准确度，以及将模型部署到自定义终结点。在希望同事有权访问你生成的模型或希望将模型部署到多个区域的情况下，将模型复制到其他订阅。

语音转文本 REST API 包括以下功能：

快速转录

以下操作组适用于快速听录。

操作组	说明
听录	使用文字转录 - 转录功能来转换音频文件。使用快速听录时，每个请求发送一个文件。有关如何从单个音频文件创建听录的示例，请参阅“ 创建听录 ”。

以下操作组适用于批量听录。

操作组	说明
模型	使用基础模型或自定义模型来听录音频文件。可以将模型与自定义语音识别和批量听录配合使用。例如，可以使用经由特定数据集训练的模型来听录音频文件。有关如何训练和管理自定义语音识别模型的示例，请参阅训练模型和自定义语音识别模型生命周期。
听录	使用听录 - 提交以转录存储中的大量音频。使用批量听录时，请为每个请求发送多个文件，或指向包含要听录的音频文件的 Azure Blob 存储容器。有关如何从多个音频文件创建听录的示例，请参阅创建听录。
Webhook	使用 Webhook 接收有关创建、处理、完成和删除事件的通知。可以将 Webhook 与自定义语音识别和批量听录配合使用。 Webhook 适用于数据集、终结点、评估、模型和听录。

以下操作组适用于自定义语音识别。

操作组	说明
数据集	使用数据集来训练和测试自定义语音识别模型。例如，可以将使用特定数据集训练的自定义语音识别的性能与使用其他数据集训练的基础模型或自定义语音识别模型的性能进行比较。有关如何上传数据集的示例，请参阅上传训练和测试数据集。
端点	将自定义语音识别模型部署到终结点。必须部署自定义终结点才能使用自定义语音识别模型。有关如何管理部署终结点的示例，请参阅部署模型。
评估	使用评估来比较不同模型的性能。例如，可以将使用特定数据集训练的自定义语音识别模型的性能与使用其他数据集训练的基础模型或自定义模型的性能进行比较。有关如何测试和评估自定义语音识别模型的示例，请参阅测试识别质量和测试准确度。
模型	使用基础模型或自定义模型来听录音频文件。可以将模型与自定义语音识别和批量听录配合使用。例如，可以使用经由特定数据集训练的模型来听录音频文件。有关如何训练和管理自定义语音识别模型的示例，请参阅训练模型和自定义语音识别模型生命周期。
Webhook	使用 Webhook 接收有关创建、处理、完成和删除事件的通知。可以将 Webhook 与自定义语音识别和批量听录配合使用。 Webhook 适用于数据集、终结点、评估、模型和听录。