共用方式為


接受的自訂 NER 資料格式

如果您嘗試將 資料匯入 自訂 NER,則必須遵循特定格式。 如果你沒有資料要匯入,你可以 建立專案 並使用 Microsoft Foundry 來標註文件。

標籤檔案格式

您的標籤檔案應該是 json 格式,以便用於將標籤匯入專案

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

預留位置 價值 範例
multilingual true 布林值可讓您在資料集中包含多種語言的文件,並且在部署模型後,您可以使用任何支援的語言(不一定包含在訓練文件中)查詢模型。 若要深入了解多語系支援,請參閱語言支援 true
projectName {PROJECT-NAME} 專案名稱 myproject
storageInputContainerName {CONTAINER-NAME} 容器名稱 mycontainer
entities 陣列,其中包含您在專案中擁有的所有實體類型。 從文件中擷取的實體類型。
documents 陣列,其中包含專案中的所有文件,以及每個文件內標記的實體清單。 []
location {DOCUMENT-NAME} 文件在儲存體容器中的位置。 由於所有文件都位於容器的根目錄中,因此此位置應該是文件名稱。 doc1.txt
dataset {DATASET} 此檔案在定型前分割時要移至的測試集。 在這裡深入了解資料分割。 此欄位的可能值為 TrainTest Train
regionOffset 文字開頭的內含字元位置。 0
regionLength 周框方塊的長度 (以 UTF16 字元為單位)。 訓練只會考慮此區域中的資料。 500
category 與指定的文字範圍相關聯的實體類型。 Entity1
offset 實體文字的開始位置。 25
length 實體的長度 (以 UTF16 字元為單位)。 20
language {LANGUAGE-CODE} 字串,指定專案中所用文件的語言代碼。 如果您的專案是多語言專案,請選擇大部分文件的語言代碼。 如需詳細資訊,請參閱語言支援 (部分機器翻譯)。 en-us

下一步