Freigeben über


Akzeptierte Datenformate für die Stimmungsanalyse

Wenn Sie versuchen, Daten in die benutzerdefinierte Stimmungsanalyse zu importieren, müssen diese ein bestimmtes Format aufweisen. Wenn Sie keine Daten importieren müssen, können Sie Ihr Projekt erstellen und Language Studio zum Beschriften Ihrer Dokumente verwenden.

Format der Beschriftungsdatei

Ihre Beschriftungsdatei sollte das folgende json-Format aufweisen, damit sie für das Importieren Ihrer Beschriftungen in ein Projekt verwendet werden kann.

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

Schlüssel Platzhalter Wert Beispiel
multilingual true Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Dokumente in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Informationen zur Unterstützung mehrerer Sprachen finden Sie unter Sprachunterstützung. true
projectName {PROJECT-NAME} Projektname myproject
storageInputContainerName {CONTAINER-NAME} Containername mycontainer
sentimentSpans Array, das alle Stimmungen und deren Positionen im Dokument enthält
documents Dies ist ein Array mit allen Dokumenten in Ihrem Projekt und die Liste der Entitäten, die innerhalb jedes Dokuments gekennzeichnet sind. []
location {DOCUMENT-NAME} Dies ist der Speicherort der Dokumente im Speichercontainer. Da sich alle Dokumente im Stammverzeichnis des Containers befinden, sollte dies der Dokumentname sein. doc1.txt
dataset {DATASET} Dies ist der Testdatensatz, in den diese Datei bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zur Datenaufteilung finden Sie hier Mögliche Werte für dieses Feld sind Train und Test. Train
offset Die inklusive Zeichenposition am Anfang einer Stimmung im Text 0
length Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt. 500
category Die Stimmung, die der angegebenen Textspanne zugeordnet ist positive
offset Die Startposition für den Entitätstext 25
length Die Länge der Entität in UTF16-Zeichen 20
language {LANGUAGE-CODE} Eine Zeichenfolge, die den Sprachcode für das in Ihrem Projekt verwendete Dokument angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode für die Sprache aus, die in den meisten Dokumenten verwendet wird. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. en-us

Nächste Schritte