受け入れられるカスタムの NER データ形式

[アーティクル]
12/19/2023

カスタムの NER にデータをインポートする場合は、特定の形式に従う必要があります。インポートするデータがない場合は、プロジェクトを作成し、Language Studio を使用してドキュメントにラベルを付けることができます。

ラベルのファイル形式

ラベルファイルは、ラベルをプロジェクトにインポートする場合に使用する以下の json 形式にする必要があります。

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Key	プレースホルダー	値	例
`multilingual`	`true`	データセットで複数の言語のドキュメントを得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニングドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。多言語サポートの詳細については、言語サポートをご覧ください。	`true`
`projectName`	`{PROJECT-NAME}`	プロジェクト名	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	コンテナー名	`mycontainer`
`entities`		プロジェクト内にあるすべてのエンティティ型を含めた配列。これらは、ドキュメントから抽出されるエンティティ型です。
`documents`		プロジェクト内のすべてのドキュメントと、各ドキュメント内でラベル付けされたエンティティのリストを含む配列。	[]
`location`	`{DOCUMENT-NAME}`	ストレージコンテナー内のドキュメントの場所。すべてのドキュメントはコンテナーのルートに含まれているので、これはドキュメント名にする必要があります。	`doc1.txt`
`dataset`	`{DATASET}`	トレーニング前に分割される場合、このファイルの移動先のテストセット。データの分割の詳細については、こちらを参照してください。このフィールドで使用できる値は `Train` および `Test` です。	`Train`
`regionOffset`		テキストの先頭の包括的な文字位置。	`0`
`regionLength`		UTF16 文字を基準とした場合の境界ボックスの長さ。トレーニングではこの領域のデータのみが考慮されます。	`500`
`category`		指定されたテキストのスパンに関連付けられているエンティティ型。	`Entity1`
`offset`		エンティティテキストの開始位置。	`25`
`length`		UTF16 文字を基準とした場合のエンティティの長さ。	`20`
`language`	`{LANGUAGE-CODE}`	プロジェクトで使用されるドキュメントの言語コードを指定する文字列。プロジェクトが多言語プロジェクトの場合は、ほとんどのドキュメントの言語コードを選択します。サポートされている言語コードの詳細については、言語サポートを参照してください。	`en-us`

次の手順

ラベル付きデータをプロジェクトに直接インポートできます。プロジェクトをインポートする方法を学習する
データのタグ付けに関する詳細については、操作方法に関する記事を参照してください。データのタグ付けが完了したら、モデルをトレーニングできます。

受け入れられるカスタムの NER データ形式

ラベルのファイル形式

次の手順

その他のリソース