受け入れられるカスタムの NER データ形式

カスタムの NER にデータをインポートする場合は、特定の形式に従う必要があります。 インポートするデータがない場合は、プロジェクトを作成し、Language Studio を使用してドキュメントにラベルを付けることができます。

ラベルのファイル形式

ラベル ファイルは、ラベルをプロジェクトにインポートする場合に使用する以下の json 形式にする必要があります。

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Key プレースホルダー
multilingual true データセットで複数の言語のドキュメントを得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニング ドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。 多言語サポートの詳細については、言語サポートをご覧ください。 true
projectName {PROJECT-NAME} プロジェクト名 myproject
storageInputContainerName {CONTAINER-NAME} コンテナー名 mycontainer
entities プロジェクト内にあるすべてのエンティティ型を含めた配列。 これらは、ドキュメントから抽出されるエンティティ型です。
documents プロジェクト内のすべてのドキュメントと、各ドキュメント内でラベル付けされたエンティティのリストを含む配列。 []
location {DOCUMENT-NAME} ストレージ コンテナー内のドキュメントの場所。 すべてのドキュメントはコンテナーのルートに含まれているので、これはドキュメント名にする必要があります。 doc1.txt
dataset {DATASET} トレーニング前に分割される場合、このファイルの移動先のテスト セット。 データの分割の詳細については、こちらを参照してください。 このフィールドで使用できる値は Train および Test です。 Train
regionOffset テキストの先頭の包括的な文字位置。 0
regionLength UTF16 文字を基準とした場合の境界ボックスの長さ。 トレーニングではこの領域のデータのみが考慮されます。 500
category 指定されたテキストのスパンに関連付けられているエンティティ型。 Entity1
offset エンティティ テキストの開始位置。 25
length UTF16 文字を基準とした場合のエンティティの長さ。 20
language {LANGUAGE-CODE} プロジェクトで使用されるドキュメントの言語コードを指定する文字列。 プロジェクトが多言語プロジェクトの場合は、ほとんどのドキュメントの言語コードを選択します。 サポートされている言語コードの詳細については、言語サポートを参照してください。 en-us

次の手順