接受的資料格式

如果您嘗試將資料匯入自訂文字分類,則必須遵循特定格式。 如果您沒有資料可匯入,可以建立專案,並使用 Language Studio 來標記您的文件

標籤檔案格式

您的標籤檔案應使用以下的 json 格式。 這可讓您將標籤匯入專案。

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
答案 預留位置 範例
多語系 true 布林值,可讓您在資料集中具有多種語言的文件,而且當部署模型時,您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。 若要深入了解多語系支援,請參閱語言支援 true
projectName {PROJECT-NAME} 專案名稱 myproject
storageInputContainerName {CONTAINER-NAME} 容器名稱 mycontainer
類別 [] 陣列,其中包含您在專案中擁有的所有類別。 這些是您要用來分類文件的類別。 []
文件 [] 陣列,其中包含專案中的所有文件,以及此文件標記的類別。 []
location {DOCUMENT-NAME} 文件在儲存體容器中的位置。 因為所有文件都在容器的根目錄中,所以此值應該是文件名稱。 doc1.txt
資料集 {DATASET} 在定型之前分割時,此檔案會移至其中的測試集。 如需詳細資訊,請參閱如何定型模型。 此欄位的可能值為 TrainTest Train

後續步驟