Присвоение меток текстовым данным для обучения модели

Перед обучением модели необходимо добавить к документам метки с настраиваемыми сущностями для категорий, по которым вы хотите их распределять. Присвоение меток является важным шагом в жизненном цикле разработки; На этом шаге можно создать классы, по которым вы будете классифицировать данные, и присвоить документам метки этих классов. Эти данные будут использоваться на следующем шаге при обучении модели, чтобы ваша модель могла учиться по данным с предоставленными метками. Если у вас уже есть данные с метками, вы можете импортировать их в проект, но при этом необходимо убедиться в том, что данные имеют допустимый формат.

Перед созданием пользовательской модели классификации текста необходимо сначала присвоить данным метки. Если данные не имеют меток, их можно назначить в Language Studio. Данные с метками предоставляют модели сведения о том, как интерпретировать каждый текст. Это используется для обучения и оценки.

Предварительные требования

Прежде чем добавлять метки к данным, необходимо выполнить следующие действия.

Дополнительные сведения см. в статье о жизненном цикле разработки проекта.

Рекомендации по маркировке данных

Когда вы закончите подготовку данных, разработку схемы и создание проекта, необходимо добавить метки к данным. Это очень важно для того, чтобы модель получила сведения о связи конкретных документов с классами, которые вам нужны. После добавления меток к данным в Language Studio или импорта готовых данных с метками сведения о метках сохраняются в JSON-файле в контейнере хранилища, который вы подключили к этому проекту.

При проставлении меток данных необходимо учитывать следующее.

  • Обычно, чем больше данных с метками, тем лучше результаты, если все эти метки присвоены правильно.

  • Не существует конкретного числа меток, которое гарантирует идеальную работу модели. Производительность модели зависит от возможных неоднозначностей в схеме и качества данных с метками. В качестве ориентира мы рекомендуем предоставить по 50 документов с метками для каждого класса.

Добавление меток к данным

Чтобы добавить к данным метки, выполните следующие действия.

  1. Перейдите к странице проекта в Language Studio.

  2. В меню слева выберите Маркировка данных. Вы увидите список всех документов в контейнере хранилища. См. изображение ниже.

    Совет

    Чтобы просмотреть файлы без меток и приступить к маркировке, можно воспользоваться фильтрами в меню сверху. Кроме того, фильтры можно использовать для просмотра документов, помеченных определенным классом.

  3. Перейдите в представление одного файла с помощью элементов в левой части верхнего меню или выберите конкретный файл, чтобы начать добавление меток. Список всех .txt файлов, доступных в проектах, можно найти слева. Кнопки Назад и Далее в нижней части страницы можно использовать для навигации по документам.

    Примечание

    Если вы включили в проект несколько языков, вы увидите в меню сверху раскрывающийся список Язык, позволяющий выбрать язык для каждого документа.

  4. На панели справа сбоку добавьте класс в проект, чтобы можно было приступить к добавлению меток к данным.

  5. Начните присвоение меток файлам.

    Классификация по нескольким меткам. Файлу можно присвоить метки нескольких классов, выбрав все применимые флажки рядом с классами, метки для которых вы хотите применить к этому файлу.

    Снимок экрана: страница тега классификации нескольких меток.

    Вы также можете использовать функцию автоматического добавления меток , чтобы обеспечить полную маркировку.

  6. В боковой области справа под сводкой Метки указаны все классы в проекте и количество экземпляров с метками для каждого из них.

  7. В нижнем разделе области справа можно добавить текущий файл, который вы просматриваете, в обучающий или тестовый набор. По умолчанию все документы добавляются в обучающий набор. Узнайте больше о наборах для обучения и тестирования, а также о том, как они используются для обучения и оценки моделей.

    Совет

    Если планируется использовать автоматическое разделение данных, не изменяйте стандартное поведение и назначьте все документы в обучающий набор.

  8. В сводке Распределение можно просмотреть распределение по наборам для обучения и тестирования. Доступны два варианта просмотра.

    • Общее количество экземпляров. Вы можете просмотреть количество всех промаркированных экземпляров определенного класса.
    • Документы, у которых есть по крайней мере одна метка. Учитывается каждый документ, содержащий по крайней мере один промаркированный экземпляр.
  9. При добавлении меток изменения будут периодически синхронизироваться. Если данные еще не сохранены, вы увидите предупреждение в верхней части страницы. Если вы хотите сохранить вручную, нажмите кнопку Сохранить метки в нижней части страницы.

Удаление меток

Если вы хотите удалить метку, снимите флажок рядом с классом.

Удаление или классы

Чтобы удалить класс, щелкните значок удаления рядом с классом, который нужно удалить. Удаление класса приведет к удалению всех экземпляров с метками этого класса из набора данных.

Дальнейшие действия

После добавления меток к данным можно начать обучение модели на основе этих данных.