接受的自訂情感分析資料格式

發行項
12/19/2023

如果您嘗試將資料匯入自訂情感分析，則必須遵循特定格式。如果沒有資料可匯入，您可以建立專案，並使用 Language Studio 來標記您的文件。

標籤檔案格式

標籤檔案應採用如下的 json 格式，才能用來將標籤匯入專案中。

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

答案	預留位置	值	範例
`multilingual`	`true`	布林值，可讓您在資料集中具有多種語言的文件，而且當部署模型時，您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。若要深入了解多語系支援，請參閱語言支援。	`true`
`projectName`	`{PROJECT-NAME}`	專案名稱	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	容器名稱	`mycontainer`
`sentimentSpans`		陣列，其中包含檔中所有情感及其位置。
`documents`		陣列，其中包含專案中的所有文件，以及每個文件內標記的實體清單。	[]
`location`	`{DOCUMENT-NAME}`	文件在儲存體容器中的位置。因為所有文件都在容器的根目錄中，所以這應該是文件名稱。	`doc1.txt`
`dataset`	`{DATASET}`	在定型之前分割時，此檔案會移至其中的測試集。在這裡深入了解資料分割。此欄位的可能值為 `Train` 和 `Test`。	`Train`
`offset`		文字中情感開頭的內含字元位置。	`0`
`length`		周框方塊的長度 (以 UTF16 字元為單位)。訓練只會考慮此區域中的資料。	`500`
`category`		與指定之文字範圍相關聯的情感。	`positive`
`offset`		實體文字的開始位置。	`25`
`length`		實體的長度 (以 UTF16 字元為單位)。	`20`
`language`	`{LANGUAGE-CODE}`	字串，指定專案中所用文件的語言代碼。如果您的專案是多語系專案，請選擇大部分文件的語言代碼。若要進一步了解支援的語言代碼，請參閱語言支援。	`en-us`

後續步驟

您可以將標記的資料直接匯入專案中。了解如何匯入專案
請參閱操作說明文章，以取得有關標記資料的詳細資訊。標記資料完成後，即可開始定型您的模型。

共用方式為

接受的自訂情感分析資料格式

標籤檔案格式

後續步驟

意見反應

意見反應

其他資源