Поддерживаемые форматы данных
Если вы пытаетесь импортировать данные в пользовательскую классификацию текста, они должны иметь определенный формат. Если у вас нет данных для импорта, вы можете создать проект и использовать Language Studio для добавления к документам меток.
Формат файла с метками
Файл с метками должен быть в формате json
, описанном ниже. Это позволит импортировать метки в проект.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Ключ | Заполнитель | Значение | Пример |
---|---|---|---|
multilingual | true |
Логическое значение, которое позволяет иметь документы на нескольких языках в наборе данных. После развертывания модели вы можете отправить к ней запрос на любом поддерживаемом языке (не обязательно включенном в обучающие документы). См. дополнительные сведения о поддержке нескольких языков. | true |
projectName | {PROJECT-NAME} |
Имя проекта | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Имя контейнера | mycontainer |
Классы | [] | Массив, который содержит все классы, имеющиеся в проекте. Это классы, по которым будут классифицироваться документы. | [] |
документов | [] | Массив, содержащий все документы в проекте и классы, помеченные для этого документа. | [] |
расположение | {DOCUMENT-NAME} |
Расположение документов в контейнере хранилища. Так как все документы находятся в корне контейнера, это значение должно представлять собой имя документа. | doc1.txt |
набор данных | {DATASET} |
Тестовый набор, в который будет перемещен этот файл при разделении перед обучением. Дополнительные сведения см. в статье об обучении модели. Возможные значения для этого поля: Train и Test . |
Train |
Следующие шаги
- Вы можете импортировать данные с метками непосредственно в свой проект. Дополнительные сведения об импорте проектов см. в разделе Создание проекта.
- Дополнительные сведения о добавлении меток к данным приведены в этой статье. Завершив добавление меток к данным, можно приступить к обучению модели.