接受的自訂情感分析資料格式

如果您嘗試將資料 入自訂情感分析,則必須遵循特定格式。 如果沒有資料可匯入,您可以建立專案,並使用 Language Studio 來標記您的文件

標籤檔案格式

標籤檔案應採用如下的 json 格式,才能用來將標籤匯入專案中。

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

答案 預留位置 範例
multilingual true 布林值,可讓您在資料集中具有多種語言的文件,而且當部署模型時,您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。 若要深入了解多語系支援,請參閱語言支援 true
projectName {PROJECT-NAME} 專案名稱 myproject
storageInputContainerName {CONTAINER-NAME} 容器名稱 mycontainer
sentimentSpans 陣列,其中包含檔中所有情感及其位置。
documents 陣列,其中包含專案中的所有文件,以及每個文件內標記的實體清單。 []
location {DOCUMENT-NAME} 文件在儲存體容器中的位置。 因為所有文件都在容器的根目錄中,所以這應該是文件名稱。 doc1.txt
dataset {DATASET} 在定型之前分割時,此檔案會移至其中的測試集。 在這裡深入了解資料分割。 此欄位的可能值為 TrainTest Train
offset 文字中情感開頭的內含字元位置。 0
length 周框方塊的長度 (以 UTF16 字元為單位)。 訓練只會考慮此區域中的資料。 500
category 與指定之文字範圍相關聯的情感。 positive
offset 實體文字的開始位置。 25
length 實體的長度 (以 UTF16 字元為單位)。 20
language {LANGUAGE-CODE} 字串,指定專案中所用文件的語言代碼。 如果您的專案是多語系專案,請選擇大部分文件的語言代碼。 若要進一步了解支援的語言代碼,請參閱語言支援 en-us

後續步驟