Бөлісу құралы:


Поддерживаемые форматы данных

Если вы пытаетесь импортировать данные в пользовательскую классификацию текста, они должны иметь определенный формат. Если у вас нет данных для импорта, вы можете создать проект и использовать Language Studio для добавления к документам меток.

Формат файла с метками

Файл с метками должен быть в формате json, описанном ниже. Это позволит импортировать метки в проект.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomMultiLabelClassification",
        "storageInputContainerName": "{CONTAINER-NAME}",
        "projectName": "{PROJECT-NAME}",
        "multilingual": false,
        "description": "Project-description",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomMultiLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "classes": [
                    {
                        "category": "Class1"
                    },
                    {
                        "category": "Class2"
                    }
                ]
            }
        ]
    }
}
Ключ Заполнитель Значение Пример
multilingual true Логическое значение, которое позволяет иметь документы на нескольких языках в наборе данных. После развертывания модели вы можете отправить к ней запрос на любом поддерживаемом языке (не обязательно включенном в обучающие документы). См. дополнительные сведения о поддержке нескольких языков. true
projectName {PROJECT-NAME} Имя проекта myproject
storageInputContainerName {CONTAINER-NAME} Имя контейнера mycontainer
Классы [] Массив, который содержит все классы, имеющиеся в проекте. Это классы, по которым будут классифицироваться документы. []
документов [] Массив, содержащий все документы в проекте и классы, помеченные для этого документа. []
расположение {DOCUMENT-NAME} Расположение документов в контейнере хранилища. Так как все документы находятся в корне контейнера, это значение должно представлять собой имя документа. doc1.txt
набор данных {DATASET} Тестовый набор, в который будет перемещен этот файл при разделении перед обучением. Дополнительные сведения см. в статье об обучении модели. Возможные значения для этого поля: Train и Test. Train

Следующие шаги

  • Вы можете импортировать данные с метками непосредственно в свой проект. Дополнительные сведения об импорте проектов см. в разделе Создание проекта.
  • Дополнительные сведения о добавлении меток к данным приведены в этой статье. Завершив добавление меток к данным, можно приступить к обучению модели.