Dela via


Accepterade dataformat för anpassad attitydanalys

Om du försöker importera dina data till anpassad attitydanalys måste de följa ett visst format. Om du inte har data att importera kan du skapa projektet och använda Language Studio för att märka dina dokument.

Filformat för etiketter

Filen Etiketter bör vara i formatet json nedan för att användas för att importera etiketterna till ett projekt.

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

Nyckel Platshållare Värde Exempel
multilingual true Ett booleskt värde som gör att du kan ha dokument på flera språk i datauppsättningen och när din modell distribueras kan du fråga modellen på alla språk som stöds (inte nödvändigtvis i dina träningsdokument). Mer information om flerspråkig support finns i språkstöd . true
projectName {PROJECT-NAME} Projektnamn myproject
storageInputContainerName {CONTAINER-NAME} Containerns namn mycontainer
sentimentSpans Matris som innehåller alla sentiment och deras platser i dokumentet.
documents Matris som innehåller alla dokument i projektet och en lista över de entiteter som är märkta i varje dokument. []
location {DOCUMENT-NAME} Platsen för dokumenten i lagringscontainern. Eftersom alla dokument finns i roten i containern bör detta vara dokumentnamnet. doc1.txt
dataset {DATASET} Testuppsättningen som filen ska gå till när den delas upp före träningen. Läs mer om datadelning här . Möjliga värden för det här fältet är Train och Test. Train
offset Den inkluderande teckenpositionen för början av en attityd i texten. 0
length Längden på avgränsningsrutan i termer av UTF16-tecken. Utbildningen tar endast hänsyn till data i den här regionen. 500
category Den attityd som är associerad med det angivna textintervallet. positive
offset Startpositionen för entitetstexten. 25
length Längden på entiteten när det gäller UTF16-tecken. 20
language {LANGUAGE-CODE} En sträng som anger språkkoden för dokumentet som används i projektet. Om projektet är ett flerspråkigt projekt väljer du språkkoden för de flesta dokumenten. Mer information om språkkoder som stöds finns i Språkstöd . en-us

Nästa steg

  • Du kan importera etiketterade data till projektet direkt. Lär dig hur du importerar projekt
  • Mer information om hur du etiketterar dina data finns i artikeln instruktioner. När du är klar med att märka dina data kan du träna din modell.