接受的自訂情感分析資料格式
如果您嘗試將資料 匯 入自訂情感分析,則必須遵循特定格式。 如果沒有資料可匯入,您可以建立專案,並使用 Language Studio 來標記您的文件。
標籤檔案格式
標籤檔案應採用如下的 json
格式,才能用來將標籤匯入專案中。
{
"projectFileVersion": "2023-04-15-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomTextSentiment",
"storageInputContainerName": "custom-sentiment-2",
"projectName": "sa-test",
"multilingual": false,
"description": "",
"language": "en-us"
},
"assets": {
"projectKind": "CustomTextSentiment",
"documents": [
{
"location": "document_1.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 60
},
{
"category": "neutral",
"offset": 61,
"length": 31
}
],
"dataset": "Train"
},
{
"location": "document_2.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 50
},
{
"category": "positive",
"offset": 51,
"length": 49
},
{
"category": "positive",
"offset": 101,
"length": 26
}
],
"dataset": "Train"
}
]
}
}
答案 | 預留位置 | 值 | 範例 |
---|---|---|---|
multilingual |
true |
布林值,可讓您在資料集中具有多種語言的文件,而且當部署模型時,您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。 若要深入了解多語系支援,請參閱語言支援。 | true |
projectName |
{PROJECT-NAME} |
專案名稱 | myproject |
storageInputContainerName | {CONTAINER-NAME} |
容器名稱 | mycontainer |
sentimentSpans |
陣列,其中包含檔中所有情感及其位置。 | ||
documents |
陣列,其中包含專案中的所有文件,以及每個文件內標記的實體清單。 | [] | |
location |
{DOCUMENT-NAME} |
文件在儲存體容器中的位置。 因為所有文件都在容器的根目錄中,所以這應該是文件名稱。 | doc1.txt |
dataset |
{DATASET} |
在定型之前分割時,此檔案會移至其中的測試集。 在這裡深入了解資料分割。 此欄位的可能值為 Train 和 Test 。 |
Train |
offset |
文字中情感開頭的內含字元位置。 | 0 |
|
length |
周框方塊的長度 (以 UTF16 字元為單位)。 訓練只會考慮此區域中的資料。 | 500 |
|
category |
與指定之文字範圍相關聯的情感。 | positive |
|
offset |
實體文字的開始位置。 | 25 |
|
length |
實體的長度 (以 UTF16 字元為單位)。 | 20 |
|
language |
{LANGUAGE-CODE} |
字串,指定專案中所用文件的語言代碼。 如果您的專案是多語系專案,請選擇大部分文件的語言代碼。 若要進一步了解支援的語言代碼,請參閱語言支援。 | en-us |
後續步驟
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應