Поддерживаемые форматы данных

Если вы пытаетесь импортировать данные в пользовательскую классификацию текста, они должны иметь определенный формат. Если у вас нет данных для импорта, вы можете создать проект и использовать Language Studio для добавления к документам меток.

Формат файла с метками

Файл с метками должен быть в формате json, описанном ниже. Это позволит импортировать метки в проект.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
Клавиши Заполнитель Значение Пример
multilingual true Логическое значение, которое позволяет иметь документы на нескольких языках в наборе данных. После развертывания модели вы можете отправить к ней запрос на любом поддерживаемом языке (не обязательно включенном в обучающие документы). См. дополнительные сведения о поддержке нескольких языков. true
projectName {PROJECT-NAME} Имя проекта myproject
storageInputContainerName {CONTAINER-NAME} Имя контейнера mycontainer
-классы; [] Массив, который содержит все классы, имеющиеся в проекте. Это классы, по которым будут классифицироваться документы. []
В документах [] Массив, содержащий все документы в проекте и классы, помеченные для этого документа. []
location {DOCUMENT-NAME} Расположение документов в контейнере хранилища. Так как все документы находятся в корне контейнера, это значение должно представлять собой имя документа. doc1.txt
набор данных {DATASET} Тестовый набор, в который будет перемещен этот файл при разделении перед обучением. Дополнительные сведения см. в статье об обучении модели. Возможные значения для этого поля: Train и Test. Train

Дальнейшие действия

  • Вы можете импортировать данные с метками непосредственно в свой проект. Дополнительные сведения об импорте проектов см. в разделе Создание проекта.
  • Дополнительные сведения о добавлении меток к данным приведены в этой статье. Завершив добавление меток к данным, можно приступить к обучению модели.