Добавление меток к речевым фрагментам в Language Studio
После сборки схемы для проекта необходимо добавить в проект речевые фрагменты для обучения. Речевые фрагменты должны быть похожи на те, которые будут использовать пользователи при взаимодействии с проектом. При добавлении речевого фрагмента необходимо назначить намерение, которому он принадлежит. После добавления речевого фрагмента пометьте в нем слова, которые вы хотите извлечь как сущности.
Маркировка данных является важным этапом жизненного цикла разработки: эти данные будут использоваться на следующем шаге при обучении модели на основе заданных меток. Если у вас уже есть речевые фрагменты с метками, вы можете импортировать их в проект, но при этом необходимо убедиться в том, что данные имеют допустимый формат. Дополнительные сведения об импорте данных с метками в проект см. в статье о создании проекта. Данные с метками предоставляют модели сведения о том, как интерпретировать каждый текст. Это используется для обучения и оценки.
Необходимые компоненты
Прежде чем добавлять метки к данным, необходимо выполнить следующие действия.
- У вас должен быть успешно созданный проект.
Дополнительные сведения см. в статье о жизненном цикле разработки проекта.
Рекомендации по маркировке данных
Когда вы закончите разработку схемы и создание проекта, необходимо добавить метки к данным. Маркировка данных важна, чтобы модель знала, какие слова и предложения будут связаны с намерениями и сущностями в проекте. Уделите время добавлению меток к речевым фрагментам — вам нужно предоставить и уточнить данные, на основе которых будут обучаться ваши модели.
Добавляя речевые фрагменты и размечая их, помните о следующем:
Модели машинного обучения используют для обобщения размеченные примеры: чем больше примеров вы предоставляете, тем больше у модели точек данных и тем лучшее она выполняет обобщения.
Точность, согласованность и полнота данных с метками являются ключевыми факторами для определения производительности модели.
- Метка точно: метка каждого намерения и сущности в правильный тип всегда. Включите только то, что вы хотите классифицировать и извлечь, избежать ненужных данных в метках.
- Добавляйте метки согласованно. У одной сущности должна быть одна и та же метка во всех речевых фрагментах.
- Метка полностью: предоставьте разнообразные речевые фрагменты для каждого намерения. Пометьте все экземпляры сущности во всех речевых фрагментах.
Четко помеченные речевые фрагменты
Убедитесь, что основные понятия, к которым относятся сущности, являются четко определенными и разделимыми. Проверьте, можно ли легко определить различия надежно. Если вы не можете, это отсутствие различия может указывать на то, что обучающий компонент также будет иметь трудности.
Если между сущностями есть сходство, убедитесь, что есть некоторый аспект ваших данных, который обеспечивает сигнал для разницы между ними.
Например, если вы создали модель для бронирования рейсов, пользователь может использовать высказывание, например "Я хочу рейс из Бостона в Сиэтл". Город-источник и город назначения для таких речевых фрагментов, как ожидается, будет похожим. Сигналом для отличия города происхождения может быть то, что слово из часто предшествует ему.
Убедитесь, что все экземпляры каждой сущности помечены как в обучающих, так и в тестовых данных. Одним из способов является использование функции поиска для поиска всех экземпляров слова или фразы в данных, чтобы проверить правильность их метки.
Метка тестовых данных для сущностей, которые не имеют компонента обучения , а также для сущностей, которые делают. Эта практика помогает убедиться, что метрики оценки являются точными.
Для мультиязычных проектов добавление речевых фрагментов на других языках улучшает работу модели на этих языках, однако следует избегать дублирования данных на все языки, которые должны поддерживаться. Например, для улучшения работы бота календаря с пользователями разработчик может добавить примеры в основном на английском языке, а также несколько примеров на испанском или французском языке. Он может добавить такие речевые фрагменты, как:
- "Set a meeting with Matt and Kevintomorrow at 12 PM." (Назначить встречу с Мэттом и Кевином завтра в 12:00) (английский язык)
- "Reply as tentative to the weekly update meeting." (Ответить "под вопросом" на еженедельную планерку) (английский язык)
- "Cancelar mi próxima reunión." (Отменить мою следующую встречу) (испанский язык)
Маркировка речевых фрагментов
Чтобы добавить метки к речевым фрагментам, выполните указанные ниже действия.
Перейдите к странице проекта в Language Studio.
В меню слева выберите Маркировка данных. На этой странице можно приступить к добавлению речевых фрагментов и их маркировке. Вы также можете отправить речевой фрагмент напрямую: выберите Отправить файл речевых фрагментов в верхнем меню и убедитесь, что он соответствует допустимому формату.
В верхней сводке можно выбрать в качестве представления набор для обучения или набор для тестирования. Узнайте больше о наборах для обучения и тестирования, а также о том, как они используются для обучения и оценки моделей.
Совет
Если вы планируете использовать Автоматическое разделение проверочных данных и обучающих данных, добавьте все речевые фрагменты в обучающий набор.
В раскрывающемся меню Выбор намерения выберите одно из намерений, язык речевого фрагмента (для мультиязычных проектов) и сам речевой фрагмент. Нажмите клавишу ВВОД в текстовом поле речевого фрагмента, чтобы добавить речевой фрагмент.
Разметить сущности в речевом фрагменте можно двумя способами:
Вариант Описание Добавление метки с помощью кисти Выберите значок кисти рядом с сущностью в области справа, а затем выделите в речевом фрагменте текст, к которому требуется добавить метку. Добавление метки с помощью встроенного меню Выделите слово, которое нужно пометить меткой как сущность, и появится меню. Выберите сущность, которой вы хотите пометить эти слова. В боковой области справа под сводкой Метки представлены все типы сущностей в проекте и количество экземпляров с метками для каждого из них.
В сводке Распределение можно просмотреть распределение по наборам для обучения и тестирования. Доступны два варианта просмотра.
- Общее количество экземпляров для каждой помеченной сущности: можно просмотреть количество всех экземпляров определенной сущности с метками.
- Уникальные речевые фрагменты для каждой помеченной сущности: учитывается каждый речевой фрагмент, содержащий по крайней мере один экземпляр этой сущности с метками.
- Речевые фрагменты для каждого намерения: можно просмотреть количество речевых фрагментов на намерение.
Примечание.
Список и предварительно созданные компоненты не отображаются на странице маркировки данных, и все метки здесь применяются только к обучаемого компонента.
Чтобы удалить метку, выполните приведенные действия.
- В речевом фрагменте выберите сущность, для которой нужно удалить метку.
- прокрутите появившееся меню и выберите пункт Удалить метку.
Удаление сущности:
- Выберите сущность, которую нужно изменить, на правой боковой панели.
- Выберите три точки рядом с сущностью и выберите нужный вариант в раскрывающемся меню.
Предложение речевых фрагментов с помощью Azure OpenAI
В CLU используйте Azure OpenAI, чтобы предложить речевые фрагменты для добавления в проект с помощью моделей GPT. Сначала необходимо получить доступ и создать ресурс в Azure OpenAI. Затем необходимо создать развертывание для моделей GPT. Выполните необходимые действия здесь.
Перед началом работы функция предложения речевых фрагментов доступна только в том случае, если ресурс языка находится в следующих регионах:
- Восточная часть США
- Центрально-южная часть США
- Западная Европа
На странице метки данных:
- Нажмите кнопку "Предложить речевые фрагменты ". Область откроется в правой части с запросом на выбор ресурса и развертывания Azure OpenAI.
- При выборе ресурса Azure OpenAI выберите Connect, который позволяет ресурсу языка иметь прямой доступ к ресурсу Azure OpenAI. Он назначает ресурс языка роли
Cognitive Services User
ресурса Azure OpenAI, который позволяет текущему ресурсу языка иметь доступ к службе Azure OpenAI. Если подключение завершается ошибкой, выполните следующие действия , чтобы добавить нужную роль в ресурс Azure OpenAI вручную. - После подключения ресурса выберите развертывание. Рекомендуемая модель развертывания
text-davinci-002
Azure OpenAI. - Выберите намерение, для который вы хотите получить предложения. Убедитесь, что выбранное намерение содержит не менее 5 сохраненных речевых фрагментов, которые будут включены для предложений речевых фрагментов. Предложения, предоставляемые Azure OpenAI, основаны на последних речевых фрагментах , которые вы добавили для этого намерения.
- Выберите " Создать речевые фрагменты". После завершения предложенные речевые фрагменты будут отображаться с пунктирной линией вокруг нее, с заметкой , созданной ИИ. Эти предложения должны быть приняты или отклонены. Принятие предложения просто добавляет его в проект, как если бы вы добавили его самостоятельно. Отклонение его полностью удаляет предложение. Только принятые речевые фрагменты будут частью проекта и используются для обучения или тестирования. Вы можете принять или отклонить, щелкнув зеленый флажок или красные кнопки отмены рядом с каждым высказыванием. Вы также можете использовать кнопки
Accept all
иReject all
кнопки на панели инструментов.
Использование этой функции влечет за собой плату за ресурс Azure OpenAI для аналогичного количества токенов, созданных предлагаемыми речевыми фрагментами. Сведения о ценах На Azure OpenAI см . здесь.
Добавление необходимых конфигураций в ресурс Azure OpenAI
Если подключение ресурса языка к ресурсу Azure OpenAI завершается ошибкой, выполните следующие действия.
Включите управление удостоверениями для ресурса языка с помощью следующих параметров:
Ресурс языка должен иметь управление удостоверениями, чтобы включить его с помощью портал Azure:
- Перейдите к ресурсу Языка.
- В меню слева в разделе Управление ресурсами выберите Удостоверение.
- На вкладке Назначаемое системой убедитесь, что для параметра Состояние установлено значение Включено.
После включения управляемого удостоверения назначьте роль Cognitive Services User
ресурсу Azure OpenAI с помощью управляемого удостоверения ресурса языка.
- Войдите в портал Azure и перейдите к ресурсу Azure OpenAI.
- Перейдите на вкладку контроль доступа (IAM) слева.
- Выберите "Добавить > назначение роли".
- Выберите "Роли функции задания" и нажмите кнопку "Далее".
- Выберите
Cognitive Services User
из списка ролей и нажмите кнопку "Далее". - Выберите "Назначить доступ к управляемому удостоверению" и выберите "Выбрать участников".
- В разделе "Управляемое удостоверение" выберите "Язык".
- Найдите ресурс и выберите его. Затем нажмите кнопку "Выбрать" ниже и рядом с ним, чтобы завершить процесс.
- Просмотрите сведения и нажмите кнопку "Проверить и назначить".
Через несколько минут обновите Языковую студию, и вы сможете успешно подключиться к Azure OpenAI.
Next Steps
- Train Model (Обучение модели);