Обучение модели распознавания устной речи

Завершив маркировку речевых фрагментов, можно приступить к обучению модели. Обучение — это процесс, в ходе которого модель обучается по вашим речевым фрагментам с метками.

Чтобы обучить модель, запустите задание обучения. Только успешно завершенные задания создают модель. Срок действия заданий обучения истекает через семь дней. По истечении этого периода вы не сможете получить сведения о задании. Если задание обучения было завершено успешно и создало модель, срок действия этого задания не применяется к созданной модели. Вы можете выполнять только одно задание обучения и не можете запускать одновременно с ним другие задания в том же проекте.

Время обучения может составлять от нескольких секунд при работе с простыми проектами до нескольких часов при достижении максимального количества речевых фрагментов.

Оценка модели автоматически активируется после успешного завершения обучения. Процесс оценки начинается с использования обученной модели для выполнения прогнозов на речевых фрагментах в тестовом наборе и сравнения прогнозируемых результатов с предоставленными метками (что устанавливает базовый уровень истины).

Предварительные требования

Балансировка обучающих данных

При работе с данными для обучения следует стараться поддерживать хорошо сбалансированную схему. Включение большого количества одного намерения и очень небольшого числа другого приведет к модели, которая сильно смещена в сторону конкретных намерений.

Для решения этой проблемы может потребоваться уменьшить или добавить в него обучающий набор. Понижение дискретизации можно выполнить следующими способами:

  • Случайное удаление определенного процента обучающих данных.
  • Более систематическим путем анализа набора данных и удаления избыточных повторяющихся записей.

Вы также можете добавить его в обучающий набор, выбрав Пункт Предложить речевые фрагменты на вкладке Маркировка данных в Language Studio. Беседа Распознавание речи отправит вызов в Azure OpenAI для создания аналогичных речевых фрагментов.

Снимок экрана: предложение речевых фрагментов в Language Studio.

Также следует искать непреднамеренные "шаблоны" в обучаемом наборе. Например, если обучающий набор для конкретного намерения имеет строчные буквы или начинается с определенной фразы. В таких случаях обучаемая модель может изучить эти непреднамеренные предубеждения в обучаемом наборе вместо того, чтобы обобщать.

Мы рекомендуем ввести в обучающий набор многообразие регистров и знаков препинания. Если ожидается, что ваша модель будет обрабатывать варианты, убедитесь, что у вас есть обучающий набор, который также отражает это разнообразие. Например, включите некоторые речевые фрагменты в правильном регистре, а некоторые — в нижнем регистре.

Разделение данных

Перед началом процесса обучения предоставленные в проекте речевые фрагменты с метками делятся на обучающий набор и тестовый набор. Каждый из них выполняет свою роль. Обучающий набор используется при обучении модели, то есть по нему модель изучает речевые фрагменты с метками. Тестовый набор сохраняется в тайне от модели на период обучения, а применяется только во время оценки.

После успешного обучения полученная модель используется для прогнозирования речевых фрагментов в тестовом наборе. Эти прогнозы используются для вычисления метрик оценки. Важно убедиться, что в обучающем и тестовом наборах хорошо представлены все существующие намерения и сущности.

Распознавание речи общения поддерживает два метода разделения данных:

  • Автоматическое выделение тестового набора из обучающих данных: система разделит данные с метками на обучающий и тестовый наборы в указанной вами пропорции. Мы рекомендуем использовать 80 % набора данных для обучения и 20 % для тестирования.

Примечание

Если вы выберете вариант Автоматическое выделение тестового набора из обучающих данных, выбранные процентные доли будут применяться только для разделения данных в обучающем наборе.

  • Разделение обучающих и тестовых данных вручную: этот метод позволяет самостоятельно определить, какие речевые фрагменты должны принадлежать к какому набору. Этот шаг включается только в том случае, если вы добавили речевые фрагменты в тестовый набор на этапе маркировки.

Режимы обучения

CLU поддерживает два режима для обучения моделей

  • Стандартное обучение использует быстрые алгоритмы машинного обучения для относительно быстрого обучения моделей. В настоящее время он доступен только для английского языка и отключен для любого проекта, который не использует английский (США) или английский (Великобритания) в качестве основного языка. Этот вариант обучения предоставляется бесплатно. Стандартное обучение позволяет добавлять речевые фрагменты и тестировать их быстро без затрат. Показанные результаты оценки должны помочь вам в том, где внести изменения в проект и добавить дополнительные высказывания. После нескольких итераций и добавочных улучшений можно использовать расширенное обучение для обучения другой версии модели.

  • Расширенное обучение использует новейшие технологии машинного обучения для настройки моделей с помощью ваших данных. Ожидается, что это позволит получить более высокие оценки производительности моделей, а также использовать многоязычные возможности CLU. Дополнительное обучение по-разному оцениваются. Дополнительную информацию см. в сведениях о ценах.

Используйте результаты оценки для принятия решений. В некоторых случаях, когда конкретный пример прогнозируется неправильно в расширенном обучении, а не при использовании стандартного режима обучения. Тем не менее, если общие результаты оценки лучше при расширенном обучении, рекомендуется использовать окончательную модель. Если это не так, и вы не хотите использовать какие-либо многоязычные возможности, вы можете продолжать использовать модель, обученную с помощью стандартного режима.

Примечание

Вы должны ожидать разницу в поведении в оценках достоверности намерений между режимами обучения, так как каждый алгоритм калибрует свои оценки по-разному.

Обучение модели

Чтобы начать обучение модели в Language Studio, выполните следующие действия.

  1. Выберите Обучение модели в меню слева.

  2. В верхнем меню выберите Запустить задание на обучение.

  3. Выберите Обучение новой модели и введите имя новой модели в текстовое поле. В противном случае, чтобы заменить существующую модель моделью, обученной на основе новых данных, выберите Перезаписать существующую модель , а затем выберите существующую модель. Перезапись обученной модели необратима, но никак не влияет на развернутые модели до тех пор, пока вы не развернете новую модель.

  4. Выберите режим обучения. Вы можете выбрать Стандартное обучение для более быстрого обучения, но оно доступно только на английском языке. Кроме того, можно выбрать Расширенное обучение, которое поддерживается для других языков и многоязычных проектов, но оно предусматривает более длительное время обучения. Узнайте больше о режимах обучения.

  5. Выберите метод разделения данных. Вы можете выбрать вариант Автоматическое выделение тестового набора из обучающих данных, при котором система разделит данные с метками на обучающий и тестовый наборы в указанной вами пропорции. Кроме того, можно использовать разделение данных обучения и тестирования вручную. Этот вариант доступен только в том случае, если вы добавили речевые фрагменты в набор тестирования во время маркировки речевых фрагментов.

  6. Нажмите кнопку Обучить.

    Снимок экрана: страница обучения в Language Studio.

  7. Выберите идентификатор задания обучения из списка. Появится панель, где можно проверка ход обучения, состояние задания и другие сведения об этом задании.

    Примечание

    • Модели будут создаваться только с помощью успешно завершенных заданий обучения.
    • Обучение может занять от нескольких минут до нескольких часов в зависимости от количества речевых фрагментов.
    • В каждый момент времени может выполняться только одно задание на обучение. Вы не сможете запускать другие задания обучения в том же проекте, пока не будет завершено запущенное задание.
    • Машинное обучение, используемое для обучения моделей, регулярно обновляется. Чтобы обучить предыдущую версию конфигурации, выберите Выбрать здесь, чтобы изменить страницуЗапуск задания обучения и выбрать предыдущую версию.

Отмена задания обучения

Отмена задания обучения в Language Studio

  1. На странице Обучение модели выберите задание обучения, которое требуется отменить, и выберите Отмена в верхнем меню.

Дальнейшие действия