Поделиться через


Форматы данных, принимаемые пользовательским распознаванием именованных сущностей

Если вы пытаетесь импортировать данные в настраиваемый NER, они должны соответствовать определенному формату. Если у вас нет данных для импорта, можно создать проект и использовать Microsoft Foundry для маркировки документов.

Формат файла с метками

Файл меток должен быть в json формате для импорта меток в проект.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Ключ Заполнитель Значение Пример
multilingual true Логическое значение, которое позволяет иметь документы на нескольких языках в наборе данных. После развертывания модели вы можете отправить к ней запрос на любом поддерживаемом языке (не обязательно включенном в обучающие документы). См. дополнительные сведения о поддержке нескольких языков. true
projectName {PROJECT-NAME} Имя проекта myproject
storageInputContainerName {CONTAINER-NAME} Имя контейнера mycontainer
entities Массив, содержащий все типы сущностей в проекте. Типы сущностей, извлеченные из документов.
documents Массив, содержащий все документы в проекте и список сущностей, помеченных в каждом документе. []
location {DOCUMENT-NAME} Расположение документов в контейнере хранилища. Поскольку все документы находятся в корне контейнера, имя документа должно указывать на это расположение. doc1.txt
dataset {DATASET} Тестовый набор, в который помещается этот файл при разделении данных перед обучением. См. дополнительные сведения о разделении данных. Возможные значения для этого поля: Train и Test. Train
regionOffset Позиция символа начала текста (включая сам символ). 0
regionLength Длина ограничивающего прямоугольника в символах UTF16. При обучении учитываются данные только в этом регионе. 500
category Тип сущности, связанной с заданным фрагментом текста. Entity1
offset Начальная позиция текста сущности. 25
length Длина сущности в символах UTF16. 20
language {LANGUAGE-CODE} Строка, указывающая код языка для документа, используемого в проекте. Если проект является многоязычным проектом, выберите языковой код для большинства документов. Дополнительные сведения см. в разделе"Поддержка языков". en-us

Следующие шаги

  • Вы можете импортировать данные с метками непосредственно в свой проект. Узнайте, как импортировать проект
  • Дополнительные сведения о добавлении меток к данным приведены в этой статье. Завершив добавление меток к данным, можно приступить к обучению модели.