Добавление меток к данным в Language Studio

Перед обучением модели необходимо добавить метки к документам с настраиваемыми сущностями, которые требуется извлечь. Маркировка данных — важный шаг в жизненном цикле разработки. На этом шаге можно создать типы сущностей, которые требуется извлечь из данных, и добавить метки к этим сущностям в документах. Эти данные будут использоваться на следующем шаге при обучении модели, чтобы ваша модель могла учиться с помощью данных с метками. Если у вас уже есть данные с метками, вы можете импортировать их непосредственно в проект, однако необходимо убедиться в том, что данные имеют допустимый формат. Дополнительные сведения об импорте данных с метками в проект см. в статье о создании проекта.

Перед созданием пользовательской модели распознавания именованных сущностей необходимо сначала пометить данные метками. Если данные не имеют меток, их можно снабдить метками в Language Studio. Данные с метками предоставляют модели сведения о том, как интерпретировать каждый текст. Это используется для обучения и оценки.

Предварительные требования

Прежде чем добавлять метки к данным, необходимо выполнить следующие действия.

  • Успешно созданный проект с настроенной учетной записью хранилища BLOB-объектов Azure
  • Отправить текстовые данные в учетную запись хранения.

Дополнительные сведения см. в статье о жизненном цикле разработки проекта.

Рекомендации по маркировке данных

Подготовив данные, разработав схему и создав проект, необходимо добавить метки к данным. Добавить метки к данным важно — так модель будет знать, какие слова будут связаны с типами сущностей, которые необходимо извлечь. При добавлении меток к данным в Language Studio (или при импорте данных с метками) эти метки будут храниться в JSON-документе в контейнере хранилища, подключенном к этому проекту.

При проставлении меток данных необходимо учитывать следующее.

  • В целом чем больше данных с метками, тем лучше результаты, при условии, что данные помечены точно.

  • Точность, согласованность и полнота данных с метками являются ключевыми факторами для определения производительности модели.

    • Добавляйте метки точно. Обязательно добавляйте метки правильного типа к каждой сущности. Включайте только те данные, которые нужно извлечь. Не добавляйте в метки ненужные данные.
    • Добавляйте метки согласованно. У одной сущности должна быть одна и та же метка во всех документах.
    • Добавляйте метки ко всем данным. Добавляйте метки ко всем экземплярам сущности во всех документах. Вы можете использовать функцию автоматического добавления меток , чтобы обеспечить полную маркировку.

    Примечание

    Не существует фиксированного числа меток, способного гарантировать более эффективную работу модели. Производительность модели зависит от возможной неоднозначности в схеме и качества данных с метками. Тем не менее рекомендуется иметь около 50 экземпляров с метками для каждого типа сущности.

Добавление меток к данным

Чтобы добавить к данным метки, выполните следующие действия.

  1. Перейдите к странице проекта в Language Studio.

  2. В меню слева выберите Маркировка данных. Список всех документов представлен в контейнере хранилища.

    Совет

    Чтобы просмотреть документы без меток и приступить к маркировке, можно воспользоваться фильтрами в меню сверху. Кроме того, фильтры можно использовать для просмотра документов, помеченных определенным типом сущности.

  3. Перейдите в представление одного документа с помощью элементов в левой части верхнего меню или выберите конкретный документ, чтобы начать маркировку. Список всех документов .txt, доступных в проекте, представлен слева. Кнопки Назад и Далее в нижней части страницы можно использовать для навигации по документам.

    Примечание

    Если вы включили в проект несколько языков, вы увидите в меню сверху раскрывающийся список Язык, позволяющий выбрать язык каждого документа.

  4. На правой боковой панели добавьте тип сущности в проект, чтобы можно было приступить к добавлению меток к данным.

  5. Есть два варианта добавления меток в документ.

    Параметр Описание
    Добавление метки с помощью кисти Щелкните значок кисти рядом с типом сущности в области справа, а затем выделите в документе текст, к которому требуется добавить заметку с помощью этого типа сущности.
    Добавление метки с помощью меню Выделите слово, которое нужно пометить меткой как сущность, и появится меню. Выберите тип сущности, который нужно назначить для этой сущности.

    На приведенном ниже снимке экрана показано добавление меток с помощью кисти.

    Снимок экрана: параметры маркировки, предлагаемые в пользовательском NER.

  6. В боковой области справа под сводкой Метки представлены все типы сущностей в проекте и количество экземпляров с метками для каждого из них.

  7. В нижнем разделе области справа можно добавить текущий документ, который вы просматриваете, в обучающий или тестовый набор. По умолчанию все документы добавляются в обучающий набор. Узнайте больше о наборах для обучения и тестирования, а также о том, как они используются для обучения и оценки моделей.

    Совет

    Если планируется использовать автоматическое разделение данных, используйте параметр по умолчанию для назначения всех документов в набор для обучения.

  8. В сводке Распределение можно просмотреть распределение по наборам для обучения и тестирования. Доступны два варианта просмотра.

    • Общее количество экземпляров. Можно просмотреть количество всех экземпляров определенного типа сущности с метками.
    • Документы, у которых есть по крайней мере одна метка: учитывается каждый документ, содержащий по крайней мере один экземпляр этой сущности с метками.
  9. При добавлении меток изменения будут периодически синхронизироваться, а если они еще не сохранены, вы увидите предупреждение в верхней части страницы. Если вы хотите сохранить вручную, нажмите кнопку Сохранить метки в нижней части страницы.

Удаление меток

Чтобы удалить метку:

  1. выберите сущность, из которой нужно удалить метку;
  2. прокрутите появившееся меню и выберите пункт Удалить метку.

Удаление сущностей

Чтобы удалить сущность, щелкните значок удаления рядом с сущностью, которую требуется удалить. Удаление сущности приведет к удалению всех экземпляров с метками из набора данных.

Дальнейшие действия

После добавления меток к данным можно начать обучение модели на основе этих данных.