接受的自訂 NER 資料格式

如果您嘗試將資料匯入自訂 NER，則必須遵循特定格式。如果你沒有資料要匯入，你可以建立專案並使用 Microsoft Foundry 來標註文件。

標籤檔案格式

您的標籤檔案應該是 json 格式，以便用於將標籤匯入專案。

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

鍵	預留位置	價值	範例
`multilingual`	`true`	布林值可讓您在資料集中包含多種語言的文件，並且在部署模型後，您可以使用任何支援的語言（不一定包含在訓練文件中）查詢模型。若要深入了解多語系支援，請參閱語言支援。	`true`
`projectName`	`{PROJECT-NAME}`	專案名稱	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	容器名稱	`mycontainer`
`entities`		陣列，其中包含您在專案中擁有的所有實體類型。從文件中擷取的實體類型。
`documents`		陣列，其中包含專案中的所有文件，以及每個文件內標記的實體清單。	[]
`location`	`{DOCUMENT-NAME}`	文件在儲存體容器中的位置。由於所有文件都位於容器的根目錄中，因此此位置應該是文件名稱。	`doc1.txt`
`dataset`	`{DATASET}`	此檔案在定型前分割時要移至的測試集。在這裡深入了解資料分割。此欄位的可能值為 `Train` 和 `Test`。	`Train`
`regionOffset`		文字開頭的內含字元位置。	`0`
`regionLength`		周框方塊的長度 (以 UTF16 字元為單位)。訓練只會考慮此區域中的資料。	`500`
`category`		與指定的文字範圍相關聯的實體類型。	`Entity1`
`offset`		實體文字的開始位置。	`25`
`length`		實體的長度 (以 UTF16 字元為單位)。	`20`
`language`	`{LANGUAGE-CODE}`	字串，指定專案中所用文件的語言代碼。如果您的專案是多語言專案，請選擇大部分文件的語言代碼。如需詳細資訊，請參閱語言支援 (部分機器翻譯)。	`en-us`

下一步

您可以將標記的資料直接匯入專案中。了解如何匯入專案
請參閱操作說明文章，以取得有關標記資料的詳細資訊。標記資料完成後，即可開始定型您的模型。

意見反應

此頁面對您有幫助嗎？

Last updated on 2025-11-18

共用方式為

接受的自訂 NER 資料格式

標籤檔案格式

下一步

意見反應

其他資源