你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

上传用于自定义语音识别的训练和测试数据集

2025-05-21

你需要音频或文本数据来测试语音识别的准确性或训练你的自定义模型。若要了解测试或训练模型所支持的数据类型，请参阅训练和测试数据集。

提示

你还可以使用联机听录内容编辑器来创建和优化经过标记的音频数据集。

上传数据集

按照以下步骤上传用于训练（微调）自定义语音模型的数据集。

重要

请重复执行这些步骤，上传后续创建测试时所需的测试数据集（如仅含“音频”）。可以上传多个数据集进行训练和测试。

登录 Azure AI Foundry 门户。
从左窗格中选择 “微调 ”，然后选择 “AI 服务微调”。
选择自定义语音识别微调任务（按模型名称），该任务是你按照“如何启动自定义语音识别微调”一文中所述启动的。
选择“ 管理数据>添加数据集”。
在“添加数据”向导中，选择要添加的训练数据类型。在此示例中，我们选择了“音频 + 人工标记的脚本”。然后选择下一步。
在“上传数据”页面上，选择本地文件、Azure Blob 存储或其他共享 Web 位置。然后选择下一步。

如果选择远程位置，并且不使用受信任的 Azure 服务安全机制，则远程位置应是可以使用简单的匿名 GET 请求检索的 URL。例如，SAS URL 或可公开访问的 URL。不支持需要额外授权或期望用户交互的 URL。

注意

如果使用 Azure Blob URL，则可以使用受信任的 Azure 服务安全机制来确保数据集文件的最大安全性。对于数据集文件，你将使用与针对批量听录和纯文本存储帐户 URL 相同的技术。请参阅此处的详细信息。
输入数据的名称和说明。然后选择下一步。
查看数据，然后选择“上传”。随后你将返回到“管理数据”页面。数据状态为“正在处理”。
请重复执行这些步骤，上传后续创建测试时所需的测试数据集（如仅含“音频”）。可以上传多个数据集进行训练和测试。
重复前面的步骤，上传稍后用于测试的音频数据。在 “添加数据 向导”中，选择要添加的数据类型的音频。

若要在 Speech Studio 中上传自己的数据集，请执行以下步骤：

登录 Speech Studio。
选择“自定义语音识别” 你的项目名称 >“语音数据集”>“上传数据”。>
选择“训练数据”或“测试数据”选项卡。
选择数据集类型，然后选择“下一步”。
指定数据集位置，然后选择“下一步”。可以选择本地文件，也可以输入远程位置，例如 Azure Blob URL。如果选择远程位置，并且不使用受信任的 Azure 服务安全机制，则远程位置应是可以使用简单的匿名 GET 请求检索的 URL。例如，SAS URL 或可公开访问的 URL。不支持需要额外授权或期望用户交互的 URL。

注意

如果使用 Azure Blob URL，则可以使用受信任的 Azure 服务安全机制来确保数据集文件的最大安全性。对于数据集文件，你将使用与针对批量听录和纯文本存储帐户 URL 相同的技术。请参阅此处的详细信息。
输入数据集名称和描述，然后选择“下一步”。
检查你的设置，然后选择“保存并关闭”。

上传数据集后，转到“训练自定义模型”页来训练自定义模型。

使用语音 CLI 和语音转文本 REST API（与 Azure AI Foundry 门户和语音工作室不同）时，你不会选择数据集是在上传时进行测试还是训练。你需要指定训练模型或运行测试时数据集的使用方式。

虽然你没有说明数据集是用于测试还是用于训练，但必须指定数据集类型。数据集类型用于确定创建的数据集类型。在某些情况下，数据集类型仅用于测试或训练，但不应依赖这一点。语音 CLI 和 REST API kind 值对应于 Azure AI Foundry 门户和 Speech Studio 中的选项，如下表所述：

CLI 和 API 类型	门户选项
声学	训练数据：音频 + 人工标记的脚本测试数据：脚本（自动音频合成）测试数据：音频 + 人工标记的脚本
AudioFiles	测试数据：音频
语言	训练数据：纯文本
LanguageMarkdown	训练数据：markdown 格式的结构化文本
发音	训练数据：发音
OutputFormatting	训练数据：输出格式

重要

不使用语音 CLI 或 REST API 直接上传数据文件。首先，将训练或测试数据集文件存储在语音 CLI 或 REST API 可以访问的 URL 上。上传数据文件后，可以使用语音 CLI 或 REST API 创建用于自定义语音测试或训练的数据集。

若要创建数据集并将其连接到现有项目，请使用 spx csr dataset create 命令。根据以下说明构造请求参数：

将 project 属性设置为现有项目的 ID。建议使用此参数，以便还可以在 Azure AI Foundry 门户中查看和管理数据集。可以运行 spx csr project list 命令来获取可用项目。
设置所需的 kind 属性。训练数据集类型的可能值集包括：Acoustic、AudioFiles、Language、LanguageMarkdown 和发音。
设置所需的 contentUrl 属性。此参数是数据集的位置。如果不使用受信任的 Azure 服务安全机制（请参阅下一条注释），则该 contentUrl 属性应是可以使用简单的匿名 GET 请求检索的 URL。例如，SAS URL 或可公开访问的 URL。不支持需要额外授权或需要用户交互的 URL。

注意

如果使用 Azure Blob URL，则可以使用受信任的 Azure 服务安全机制来确保数据集文件的最大安全性。对于数据集文件，你将使用与针对批量听录和纯文本存储帐户 URL 相同的技术。请参阅此处的详细信息。
设置所需的 language 属性。数据集区域设置必须与项目的区域设置一致。以后无法更改此区域设置。语音 CLI language 属性对应于 JSON 请求和响应中的 locale 属性。
设置所需的 name 属性。此参数是在 Azure AI Foundry 门户中显示的名称。语音 CLI name 属性对应于 JSON 请求和响应中的 displayName 属性。

下面是一个示例语音 CLI 命令，用于创建数据集并将其连接到现有项目：

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

应收到以下格式的响应正文：

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

响应正文中的顶级 self 属性是数据集的 URI。使用此 URI 可获取有关数据集的项目和文件的详细信息。你还可以使用此 URI 更新或删除数据集。

要获取数据集的语音 CLI 帮助，请运行以下命令：

spx help csr dataset

CLI 和 API 类型	门户选项
声学	训练数据：音频 + 人工标记的脚本测试数据：脚本（自动音频合成）测试数据：音频 + 人工标记的脚本
AudioFiles	测试数据：音频
语言	训练数据：纯文本
LanguageMarkdown	训练数据：markdown 格式的结构化文本
发音	训练数据：发音
OutputFormatting	训练数据：输出格式

重要

若要创建数据集并将其连接到现有项目，请使用语音转文本 REST API 的 Datasets_Create 操作。根据以下说明构造请求正文：

将 project 属性设置为现有项目的 URI。建议使用此属性，以便还可以在 Azure AI Foundry 门户中查看和管理数据集。可以发出 Projects_List 请求来获取可用项目。
设置所需的 kind 属性。训练数据集类型的可能值集包括：Acoustic、AudioFiles、Language、LanguageMarkdown 和发音。
设置所需的 contentUrl 属性。此属性是数据集的位置。如果不使用受信任的 Azure 服务安全机制（请参阅下一条注释），则该 contentUrl 属性应是可以使用简单的匿名 GET 请求检索的 URL。例如，SAS URL 或可公开访问的 URL。不支持需要额外授权或需要用户交互的 URL。

注意

如果使用 Azure Blob URL，则可以使用受信任的 Azure 服务安全机制来确保数据集文件的最大安全性。对于数据集文件，你将使用与针对批量听录和纯文本存储帐户 URL 相同的技术。请参阅此处的详细信息。
设置所需的 locale 属性。数据集区域设置必须与项目的区域设置一致。以后无法更改此区域设置。
设置所需的 displayName 属性。此属性是在 Azure AI Foundry 门户中显示的名称。

使用 URI 发出 HTTP POST 请求，如以下示例所示。将 YourSpeechResoureKey 替换为语音资源密钥，将 YourServiceRegion 替换为语音资源区域，并按前面所述设置请求正文属性。

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

应收到以下格式的响应正文：

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

响应正文中的顶级 self 属性是数据集的 URI。使用此 URI 可获取有关数据集的项目和文件的详细信息。还可以使用此 URI 更新或删除数据集。

重要

使用 REST API 或语音 CLI 训练和测试自定义模型时，不需要将数据集连接到自定义语音项目。但是，如果数据集未连接到任何项目，则无法在 Azure AI Foundry 门户中选择它进行训练或测试。

通过

上传用于自定义语音识别的训练和测试数据集

上传数据集

后续步骤

反馈

其他资源