Добавление меток к данным в Language Studio
Перед обучением модели необходимо добавить метки к документам с настраиваемыми сущностями, которые требуется извлечь. Маркировка данных — важный шаг в жизненном цикле разработки. На этом шаге можно создать типы сущностей, которые требуется извлечь из данных, и добавить метки к этим сущностям в документах. Эти данные будут использоваться на следующем шаге при обучении модели, чтобы ваша модель могла учиться с помощью данных с метками. Если у вас уже есть данные с метками, вы можете импортировать их непосредственно в проект, однако необходимо убедиться в том, что данные имеют допустимый формат. Дополнительные сведения об импорте данных с метками в проект см. в статье о создании проекта.
Перед созданием пользовательской модели распознавания именованных сущностей необходимо сначала пометить данные метками. Если данные не имеют меток, их можно снабдить метками в Language Studio. Данные с метками предоставляют модели сведения о том, как интерпретировать каждый текст. Это используется для обучения и оценки.
Предварительные требования
Прежде чем добавлять метки к данным, необходимо выполнить следующие действия.
- Успешно созданный проект с настроенной учетной записью хранилища BLOB-объектов Azure
- Отправить текстовые данные в учетную запись хранения.
Дополнительные сведения см. в статье о жизненном цикле разработки проекта.
Рекомендации по маркировке данных
Подготовив данные, разработав схему и создав проект, необходимо добавить метки к данным. Добавить метки к данным важно — так модель будет знать, какие слова будут связаны с типами сущностей, которые необходимо извлечь. При добавлении меток к данным в Language Studio (или при импорте данных с метками) эти метки будут храниться в JSON-документе в контейнере хранилища, подключенном к этому проекту.
При проставлении меток данных необходимо учитывать следующее.
В целом чем больше данных с метками, тем лучше результаты, при условии, что данные помечены точно.
Точность, согласованность и полнота данных с метками являются ключевыми факторами для определения производительности модели.
- Добавляйте метки точно. Обязательно добавляйте метки правильного типа к каждой сущности. Включайте только те данные, которые нужно извлечь. Не добавляйте в метки ненужные данные.
- Добавляйте метки согласованно. У одной сущности должна быть одна и та же метка во всех документах.
- Добавляйте метки ко всем данным. Добавляйте метки ко всем экземплярам сущности во всех документах. Вы можете использовать функцию автоматического добавления меток , чтобы обеспечить полную маркировку.
Примечание
Не существует фиксированного числа меток, способного гарантировать более эффективную работу модели. Производительность модели зависит от возможной неоднозначности в схеме и качества данных с метками. Тем не менее рекомендуется иметь около 50 экземпляров с метками для каждого типа сущности.
Добавление меток к данным
Чтобы добавить к данным метки, выполните следующие действия.
Перейдите к странице проекта в Language Studio.
В меню слева выберите Маркировка данных. Список всех документов представлен в контейнере хранилища.
Совет
Чтобы просмотреть документы без меток и приступить к маркировке, можно воспользоваться фильтрами в меню сверху. Кроме того, фильтры можно использовать для просмотра документов, помеченных определенным типом сущности.
Перейдите в представление одного документа с помощью элементов в левой части верхнего меню или выберите конкретный документ, чтобы начать маркировку. Список всех документов
.txt
, доступных в проекте, представлен слева. Кнопки Назад и Далее в нижней части страницы можно использовать для навигации по документам.Примечание
Если вы включили в проект несколько языков, вы увидите в меню сверху раскрывающийся список Язык, позволяющий выбрать язык каждого документа.
На правой боковой панели добавьте тип сущности в проект, чтобы можно было приступить к добавлению меток к данным.
Есть два варианта добавления меток в документ.
Параметр Описание Добавление метки с помощью кисти Щелкните значок кисти рядом с типом сущности в области справа, а затем выделите в документе текст, к которому требуется добавить заметку с помощью этого типа сущности. Добавление метки с помощью меню Выделите слово, которое нужно пометить меткой как сущность, и появится меню. Выберите тип сущности, который нужно назначить для этой сущности. На приведенном ниже снимке экрана показано добавление меток с помощью кисти.
В боковой области справа под сводкой Метки представлены все типы сущностей в проекте и количество экземпляров с метками для каждого из них.
В нижнем разделе области справа можно добавить текущий документ, который вы просматриваете, в обучающий или тестовый набор. По умолчанию все документы добавляются в обучающий набор. Узнайте больше о наборах для обучения и тестирования, а также о том, как они используются для обучения и оценки моделей.
Совет
Если планируется использовать автоматическое разделение данных, используйте параметр по умолчанию для назначения всех документов в набор для обучения.
В сводке Распределение можно просмотреть распределение по наборам для обучения и тестирования. Доступны два варианта просмотра.
- Общее количество экземпляров. Можно просмотреть количество всех экземпляров определенного типа сущности с метками.
- Документы, у которых есть по крайней мере одна метка: учитывается каждый документ, содержащий по крайней мере один экземпляр этой сущности с метками.
При добавлении меток изменения будут периодически синхронизироваться, а если они еще не сохранены, вы увидите предупреждение в верхней части страницы. Если вы хотите сохранить вручную, нажмите кнопку Сохранить метки в нижней части страницы.
Удаление меток
Чтобы удалить метку:
- выберите сущность, из которой нужно удалить метку;
- прокрутите появившееся меню и выберите пункт Удалить метку.
Удаление сущностей
Чтобы удалить сущность, щелкните значок удаления рядом с сущностью, которую требуется удалить. Удаление сущности приведет к удалению всех экземпляров с метками из набора данных.
Дальнейшие действия
После добавления меток к данным можно начать обучение модели на основе этих данных.