Форматы данных, принимаемые пользовательским распознаванием именованных сущностей

Статья
12/19/2023

Если вы пытаетесь импортировать данные в пользовательское распознавание именованных сущностей, они должны иметь определенный формат. Если у вас нет данных для импорта, можно создать проект и использовать Language Studio, чтобы добавить метки к документам.

Формат файла с метками

Файл с метками должен быть в формате json, описанном ниже, который будет использоваться при импорте меток в проект.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Клавиши	Заполнитель	Значение	Пример
`multilingual`	`true`	Логическое значение, которое позволяет иметь документы на нескольких языках в наборе данных. После развертывания модели вы можете отправить к ней запрос на любом поддерживаемом языке (не обязательно включенном в обучающие документы). См. дополнительные сведения о поддержке нескольких языков.	`true`
`projectName`	`{PROJECT-NAME}`	Имя проекта	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Имя контейнера	`mycontainer`
`entities`		Массив, содержащий все типы сущностей в проекте. Это типы сущностей, которые будут извлекаться из документов.
`documents`		Массив, содержащий все документы в проекте и список сущностей, помеченных в каждом документе.	[]
`location`	`{DOCUMENT-NAME}`	Расположение документов в контейнере хранилища. Так как все документы находятся в корне контейнера, здесь содержится просто имя документа.	`doc1.txt`
`dataset`	`{DATASET}`	Тестовый набор, в который будет перемещен этот файл при разделении перед обучением. См. дополнительные сведения о разделении данных. Возможные значения для этого поля: `Train` и `Test`.	`Train`
`regionOffset`		Позиция символа начала текста (включая сам символ).	`0`
`regionLength`		Длина ограничивающего прямоугольника в символах UTF16. При обучении учитываются данные только в этом регионе.	`500`
`category`		Тип сущности, связанной с заданным фрагментом текста.	`Entity1`
`offset`		Начальная позиция для текста сущности.	`25`
`length`		Длина сущности в символах UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Строка, указывающая код языка для документа, используемого в проекте. Если проект является многоязычным, выберите код языка большинства документов. Дополнительные сведения о поддерживаемых кодах языков см. в разделе Поддержка языков.	`en-us`

Дальнейшие действия

Вы можете импортировать данные с метками непосредственно в свой проект. Узнайте, как импортировать проект
Дополнительные сведения о добавлении меток к данным приведены в этой статье. Завершив добавление меток к данным, можно приступить к обучению модели.

Форматы данных, принимаемые пользовательским распознаванием именованных сущностей

Формат файла с метками

Дальнейшие действия

Дополнительные ресурсы