カスタム テキスト分類にデータをインポートする場合は、特定の形式に従う必要があります。 インポートするデータがない場合は、 プロジェクトを作成 し、Language Studio を使用して ドキュメントにラベルを付けることができます。
ラベルのファイル形式
ラベル ファイルは、プロジェクトにラベルをjsonできるように、形式にする必要があります。
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
| Key | プレースホルダー | 値 | 例 |
|---|---|---|---|
| multilingual | true |
データセットで複数の言語のドキュメントを得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニング ドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。 多言語サポートの詳細については、言語サポートをご覧ください。 | true |
| projectName | {PROJECT-NAME} |
プロジェクト名 | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
コンテナー名 | mycontainer |
| classes | [] | プロジェクト内にあるすべてのクラスを含む配列。 | [] |
| documents | [] | プロジェクト内のすべてのドキュメントと、このドキュメントにラベル付けされたクラスを含む配列。 | [] |
| 位置 | {DOCUMENT-NAME} |
ストレージ コンテナー内のドキュメントの場所。 すべてのドキュメントはコンテナーのルートに含まれているので、この値はドキュメント名にする必要があります。 | doc1.txt |
| データセット | {DATASET} |
トレーニングの前に分割する場合にこのファイルが移動するテスト セット。
モデルをトレーニングする方法を参照してください。 このフィールドで使用できる値は Train および Test です。 |
Train |
次のステップ
- ラベル付きデータをプロジェクトに直接インポートできます。 プロジェクトのインポートの詳細については、プロジェクトの作成方法に関する記事を参照してください。
- データのタグ付けに関する詳細については、操作方法に関する記事を参照してください。 データのタグ付けが完了したら、モデルをトレーニングできます。