Отправка наборов данных для обучения и тестирования для пользовательской речи

Статья
04/15/2024

Для проверки точности распознавания речи или обучения пользовательских моделей требуются звуковые или текстовые данные. Сведения о типах данных, поддерживаемых для тестирования или обучения модели, приведены в разделе Наборы данных для обучения и тестирования.

Совет

Кроме того, вы можете использовать редактор транскрибирования в Интернете для создания и настройки наборов аудиоданных с метками.

Отправка наборов данных

Чтобы отправить собственные наборы данных в Speech Studio, выполните следующие действия:

Войдите в службу Speech Studio.
Выберите "Настраиваемая речь" Для набора>данных ">Речь" для имени >проекта передаются данные.
Выберите вкладку Данные для обучения или Данные для тестирования.
Выберите тип набора данных и нажмите Далее.
Укажите расположение набора данных и нажмите Далее. Вы можете выбрать локальный файл или ввести удаленное расположение, например URL-адрес BLOB-объектов Azure. Если вы выбираете удаленное расположение и не используете механизм безопасности доверенных служб Azure, удаленное расположение должно быть URL-адресом, который можно получить с помощью простого анонимного запроса GET. Например, URL-адрес SAS или общедоступный URL-адрес. URL-адреса, требующие дополнительной авторизации или ожидающие, что взаимодействие с пользователем не поддерживается.

Примечание.

При использовании URL-адреса BLOB-объектов Azure можно обеспечить максимальную безопасность файлов набора данных с помощью доверенного механизма безопасности служб Azure. Вы будете использовать те же методы, что и для транскрибирования пакетной службы и простых URL-адресов учетной записи служба хранилища для файлов набора данных. Дополнительные сведения см. здесь.
Введите имя и описание набора данных и нажмите Далее.
Проверьте параметры, а затем выберите Сохранить и закрыть.

После отправки набора данных перейдите на страницу "Обучение пользовательских моделей ", чтобы обучить пользовательскую модель.

С помощью интерфейса командной строки службы "Речь" и "Речь" в текстовый REST API, в отличие от Службы "Речь", вы не выбираете, является ли набор данных для тестирования или обучения во время отправки. Вы указываете, как набор данных используется при обучении модели или выполнении теста.

При том, что вы не указываете, предназначен ли набор данных для тестирования или обучения, необходимо указать тип набора данных. Тип набора данных используется для определения типа создаваемого набора данных. В некоторых случаях тип набора данных используется только для тестирования или обучения, но полагаться на это не следует. Значения kind интерфейса командной строки речевой службы и REST API соответствуют параметрам в Speech Studio, как описано в следующей таблице:

Тип интерфейса командной строки и API	Параметры Speech Studio
Акустическая	Обучающие данные: аудиоданные и расшифровка, размеченная пользователем Обучающие данные: расшифровка (автоматический синтез аудиоданных) Тестовые данные: аудиоданные и расшифровка, размеченная пользователем
Аудиофайлы	Тестовые данные: аудиоданные
Язык	Обучающие данные: обычный текст
LanguageMarkdown	Учебные данные: структурированный текст в формате markdown
Произношение	Обучающие данные: произношение
OutputFormatting	Учебные данные: формат вывода

Примечание.

Структурированный текст в обучающем наборе данных формата Markdown не поддерживается в версии 3.0 api преобразования речи в текст REST API. Для текста REST API версии 3.1 необходимо использовать речь. Дополнительные сведения см. в статье "Миграция кода из версии 3.0 в версию 3.1 REST API".

Чтобы создать набор данных и подключить его к существующему проекту, используйте команду spx csr dataset create. Создайте параметры запроса в соответствии со следующими инструкциями:

В качестве значения параметра project укажите идентификатор существующего проекта. Этот параметр рекомендуется, чтобы вы также могли просматривать набор данных и управлять ими в Speech Studio. Для получения доступных проектов выполните команду spx csr project list.
Задайте обязательный параметр kind. Возможный набор значений для типа набора данных: Language, Acoustic, Pronunciation и AudioFiles.
Задайте обязательный параметр contentUrl. Этот параметр является расположением набора данных. Если вы не используете доверенный механизм безопасности служб Azure (см. следующее примечание), contentUrl параметр должен быть URL-адресом, который можно получить с помощью простого анонимного запроса GET. Например, URL-адрес SAS или общедоступный URL-адрес. URL-адреса, требующие дополнительной авторизации или ожидающие, что взаимодействие с пользователем не поддерживается.

Примечание.

При использовании URL-адреса BLOB-объектов Azure можно обеспечить максимальную безопасность файлов набора данных с помощью доверенного механизма безопасности служб Azure. Вы будете использовать те же методы, что и для транскрибирования пакетной службы и простых URL-адресов учетной записи служба хранилища для файлов набора данных. Дополнительные сведения см. здесь.
Задайте обязательный параметр language. Языковой стандарт набора данных должен соответствовать языковому стандарту проекта. Языковой стандарт нельзя будет изменить позже. Параметр language интерфейса командной строки речевой службы соответствует свойству locale в запросе и ответе JSON.
Задайте обязательный параметр name. Этот параметр — это имя, отображаемое в Speech Studio. Параметр name интерфейса командной строки речевой службы соответствует свойству displayName в запросе и ответе JSON.

Ниже приведен пример команды интерфейса командной строки речевой службы, которая создает набор данных и подключает его к существующему проекту:

spx csr dataset create --api-version v3.1 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Вы должны получить ответ в следующем формате:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c",
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "properties": {
    "acceptedLineCount": 0,
    "rejectedLineCount": 0
  },
  "lastActionDateTime": "2022-05-20T14:07:11Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T14:07:11Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description"
}

Свойство верхнего уровня self в теле ответа представляет собой URI набора данных. Используйте этот URI для получения сведений о проекте и файлах набора данных. Тот же URI используйте для обновления или удаления набора данных.

Для получения справки интерфейса командной строки речевой службы по работе с наборами данных выполните следующую команду:

spx help csr dataset

Тип интерфейса командной строки и API	Параметры Speech Studio
Акустическая	Обучающие данные: аудиоданные и расшифровка, размеченная пользователем Обучающие данные: расшифровка (автоматический синтез аудиоданных) Тестовые данные: аудиоданные и расшифровка, размеченная пользователем
Аудиофайлы	Тестовые данные: аудиоданные
Язык	Обучающие данные: обычный текст
LanguageMarkdown	Учебные данные: структурированный текст в формате markdown
Произношение	Обучающие данные: произношение
OutputFormatting	Учебные данные: формат вывода

Примечание.

Чтобы создать набор данных и подключить его к существующему проекту, используйте Datasets_Create операцию преобразования речи в текстовый REST API. Создайте текст запроса в соответствии со следующими инструкциями:

Задайте для свойства project значение URI существующего проекта. Это свойство рекомендуется, чтобы вы также могли просматривать набор данных и управлять ими в Speech Studio. Вы можете сделать запрос Projects_List для получения доступных проектов.
Задайте обязательное свойство kind. Возможный набор значений для типа набора данных: Language, Acoustic, Pronunciation и AudioFiles.
Задайте обязательное свойство contentUrl. Это свойство является расположением набора данных. Если вы не используете доверенный механизм безопасности служб Azure (см. следующее примечание), contentUrl параметр должен быть URL-адресом, который можно получить с помощью простого анонимного запроса GET. Например, URL-адрес SAS или общедоступный URL-адрес. URL-адреса, требующие дополнительной авторизации или ожидающие, что взаимодействие с пользователем не поддерживается.

Примечание.

При использовании URL-адреса BLOB-объектов Azure можно обеспечить максимальную безопасность файлов набора данных с помощью доверенного механизма безопасности служб Azure. Вы будете использовать те же методы, что и для транскрибирования пакетной службы и простых URL-адресов учетной записи служба хранилища для файлов набора данных. Дополнительные сведения см. здесь.
Задайте обязательное свойство locale. Языковой стандарт набора данных должен соответствовать языковому стандарту проекта. Языковой стандарт нельзя будет изменить позже.
Задайте обязательное свойство displayName. Это свойство — это имя, отображаемое в Speech Studio.

Выполните HTTP-запрос POST, используя URI, как показано в следующем примере. Замените YourSubscriptionKey ключом ресурса службы "Речь" и YourServiceRegion регионом ресурса службы "Речь", а также задайте свойства текста запроса, как описано выше.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/datasets"

Вы должны получить ответ в следующем формате:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c",
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "properties": {
    "acceptedLineCount": 0,
    "rejectedLineCount": 0
  },
  "lastActionDateTime": "2022-05-20T14:07:11Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T14:07:11Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description"
}

Свойство верхнего уровня self в теле ответа представляет собой URI набора данных. Используйте этот URI для получения сведений о проекте и файлах набора данных. Этот URI также используется для обновления или удаления набора данных.

Внимание

Подключение набор данных в пользовательский проект речи не требуется для обучения и тестирования пользовательской модели с помощью REST API или интерфейса командной строки службы "Речь". Но если набор данных не подключен ни к одному проекту, его нельзя будет выбрать для обучения или тестирования в Speech Studio.

Отправка наборов данных для обучения и тестирования для пользовательской речи

Отправка наборов данных

Следующие шаги

Дополнительные ресурсы