Как обучить модель пользовательской классификации текстов

Статья
12/19/2023

Обучение — это процесс, в ходе которого модель обучается по вашим данным с метками. Выполнив обучение, вы сможете просмотреть метрики производительности модели, чтобы определить, нуждается ли модель в усовершенствовании.

Чтобы обучить модель, запустите задание обучения. Только успешно завершенные задания создают пригодную для использования модель. Срок действия заданий обучения истекает через семь дней. По истечении этого периода вы не сможете получить сведения о задании. Если задание обучения было завершено успешно и создало модель, срок действия этого задания не применяется к созданной модели. Вы можете выполнять только одно задание обучения и не можете запускать одновременно с ним другие задания в том же проекте.

Время обучения может составлять от нескольких минут (если число документов невелико) до нескольких часов, в зависимости от размера набора данных и сложности схемы.

Предварительные требования

Перед началом обучения модели вам потребуется:

Успешно создать проект с настроенной учетной записью хранилища BLOB-объектов Azure,
Отправить текстовые данные в учетную запись хранения.
Помеченные данные

Дополнительные сведения см. в статье о жизненном цикле разработки проекта.

Разделение данных

Перед началом процесса обучения предоставленные в проекте документы с метками делятся на обучающий набор и тестовый набор. Каждый из них выполняет свою роль. Обучающий набор используется при обучении модели, то есть по нему модель изучает класс или классы, назначенные каждому документу. Тестовый набор сохраняется в тайне от модели на период обучения, а применяется только во время оценки. После успешного обучения полученная модель используется для прогнозирования документов в тестовом наборе. На основе этих прогнозов для модели будут вычислены метрики оценки. Важно убедиться, что в обучающем и тестовом наборах хорошо представлены все существующие классы.

Пользовательская классификация текстов поддерживает следующие два метода разделения данных.

Автоматическое отделение тестового набора от обучающих данных: система разделит данные с метками на обучающий и тестовый наборы в указанной вами пропорции. Система попытается получить представление всех классов в обучаемом наборе. Мы рекомендуем использовать 80 % набора данных для обучения и 20 % для тестирования.

Примечание

Если вы выберете вариант Автоматическое выделение тестового набора из обучающих данных, выбранные процентные доли будут применяться только для разделения данных в обучающем наборе.

Разделение обучающих и тестовых данных вручную: этот метод позволяет самостоятельно определить, какие документы должны входить в оба набора. Этот шаг включается только в том случае, если вы добавили документы в тестовый набор на этапе маркировки данных.

Чтобы начать обучение модели в Language Studio, выполните следующие действия.

Выберите элемент Задания обучения в меню слева.
В верхнем меню выберите Запустить задание на обучение.
Щелкните Обучить новую модель и введите имя модели в текстовое поле. Можно также перезаписать существующую модель. Для этого выберите соответствующий параметр и укажите модель, которую требуется перезаписать, в раскрывающемся меню. Перезапись обученной модели необратима, но никак не влияет на развернутые модели до тех пор, пока вы не развернете новую модель.
Выберите метод разделения данных. Вы можете выбрать Автоматическое выделение тестового набора из обучающих данных, и тогда система разделит данные с метками на обучающий и тестовый наборы в указанной вами пропорции. Вы также можете выбрать Разделение обучающих и тестовых данных вручную, но только если вы добавили документы в тестовый набор на этапе маркировки данных. Дополнительные сведения о разделении данных см. в разделе Обучение модели.
Нажмите кнопку Обучить.
Если выбрать идентификатор задания обучения в списке, появится боковая панель, где можно проверка ход обучения, состояние задания и другие сведения об этом задании.
Примечание
- Модели будут создаваться только с помощью успешно завершенных заданий обучения.
- Время обучения модели может занять от нескольких минут до нескольких часов в зависимости от размера помеченных данных.
- В каждый момент времени может выполняться только одно задание на обучение. Вы не сможете запустить другое задание обучения в том же проекте до тех пор, пока не будет завершено выполняемое задания.

Запуск задания обучения

Отправьте запрос POST, используя следующий URL-адрес, заголовки и текст JSON, чтобы отправить задание обучения. Замените значения заполнителей ниже собственными значениями.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Заполнитель	Значение	Пример
`{ENDPOINT}`	Конечная точка для проверки подлинности запроса API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Имя проекта. Это значение учитывает регистр.	`myProject`
`{API-VERSION}`	Версия вызываемого API. Указанное здесь значение определяет последнюю выпущенную версию модели. Узнайте больше о других доступных версиях API.	`2022-05-01`

Заголовки

Используйте следующий заголовок для проверки подлинности запроса.

Клавиши	Значение
`Ocp-Apim-Subscription-Key`	Ключ к ресурсу. Используется для проверки подлинности запросов API.

Текст запроса

Используйте следующий код JSON в тексте запроса. После завершения обучения модель получит имя {MODEL-NAME}. Модели создаются только в результате успешных заданий обучения.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Клавиши	Заполнитель	Значение	Пример
modelLabel	`{MODEL-NAME}`	Имя модели, которое будет назначено ей после успешного обучения.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Это версия модели, которая будет использоваться для обучения модели.	`2022-05-01`
evaluationOptions		Возможность разделять данные по наборам для обучения и тестирования.	`{}`
kind	`percentage`	Методы разделения. Возможные значения: `percentage` или `manual`. Дополнительные сведения см. в разделе Обучение модели.	`percentage`
trainingSplitPercentage	`80`	Процент помеченных тегами данных, которые будут включены в набор для обучения. Рекомендуемое значение — `80`.	`80`
testingSplitPercentage	`20`	Процент помеченных тегами данных, которые будут включены в набор для тестирования. Рекомендуемое значение — `20`.	`20`

Примечание

trainingSplitPercentage и testingSplitPercentage требуются только в том случае, если для Kind задано значение percentage, а сумма процентных значений должна быть равна 100.

После отправки запроса API вы получите ответ 202, указывающий, что задание было отправлено правильно. Извлеките значение location из заголовков ответа. Оно будет иметь следующий формат:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} используется для идентификации запроса, так как эта операция является асинхронной. Этот URL-адрес позволяет получить текущее состояние обучения.

Получение состояния задания обучения

Обучение может занять немало времени в зависимости от размера обучающих данных и сложности схемы. Следующий запрос можно использовать для регулярного опроса состояния задания обучения, пока оно не будет успешно завершено.

Используйте следующий запрос GET, чтобы получить состояние хода обучения модели. Замените значения заполнителей ниже собственными значениями.

URL-адрес запроса

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Заполнитель	Значение	Пример
`{ENDPOINT}`	Конечная точка для проверки подлинности запроса API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Имя проекта. Это значение учитывает регистр.	`myProject`
`{JOB-ID}`	Идентификатор для поиска состояния обучения модели. Значение заголовка `location`, полученное на предыдущем шаге.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Версия вызываемого API. Указанное здесь значение определяет последнюю выпущенную версию модели. Дополнительные сведения о других доступных версиях API см. в статье о жизненном цикле модели.	`2022-05-01`

Заголовки

Используйте следующий заголовок для проверки подлинности запроса.

Клавиши	Значение
`Ocp-Apim-Subscription-Key`	Ключ к ресурсу. Используется для проверки подлинности запросов API.

Текст ответа

После отправки запроса вы получите следующий ответ.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Отмена задания обучения

Language Studio
REST API;

Чтобы отменить задание обучения в Language Studio, перейдите на страницу Training jobs (Задания обучения). Выберите задание обучения, которое вы хотите отменить, и нажмите кнопку Отмена в верхнем меню.

Создайте запрос POST, используя следующий URL-адрес, заголовки и текст JSON, чтобы отменить задание обучения.

URL-адрес запроса

При создании запроса API используйте следующий URL-адрес. Замените значения заполнителей ниже собственными значениями.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Заполнитель	Значение	Пример
`{ENDPOINT}`	Конечная точка для проверки подлинности запроса API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Имя проекта. Это значение учитывает регистр.	`EmailApp`
`{JOB-ID}`	Это значение является идентификатором задания обучения.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	Версия вызываемого API. Указанное значение определяет последнюю выпущенную версию модели.	`2022-05-01`

Заголовки

Используйте следующий заголовок для проверки подлинности запроса.

Клавиши	Значение
`Ocp-Apim-Subscription-Key`	Ключ к ресурсу. Используется для проверки подлинности запросов API.

После отправки API-запроса вы получите ответ 202 с заголовком Operation-Location, используемым для проверки состояния задания.

Дальнейшие действия

Когда обучение завершится, вы сможете просмотреть метрики оценки модели и, при желании, усовершенствовать модель. Когда вы будете удовлетворены моделью, ее можно развернуть, сделав ее доступной для классификации текста.

Как обучить модель пользовательской классификации текстов

Предварительные требования

Разделение данных

Обучение модели

Отмена задания обучения

Дальнейшие действия

Дополнительные ресурсы