受け入れられるカスタムセンチメント分析データ形式

[アーティクル]
09/03/2024

カスタムセンチメント分析にデータをインポートしようとしている場合は、特定の形式に従う必要があります。インポートするデータがない場合は、プロジェクトを作成し、Language Studio を使用してドキュメントにラベルを付けることができます。

ラベルのファイル形式

ラベルファイルは、ラベルをプロジェクトにインポートする場合に使用する以下の json 形式にする必要があります。

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

Key	プレースホルダー	値	例
`multilingual`	`true`	データセットで複数の言語のドキュメントを得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニングドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。多言語サポートの詳細については、言語サポートをご覧ください。	`true`
`projectName`	`{PROJECT-NAME}`	プロジェクト名	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	コンテナー名	`mycontainer`
`sentimentSpans`		ドキュメント内のすべてのセンチメントとその場所を含む配列。
`documents`		プロジェクト内のすべてのドキュメントと、各ドキュメント内でラベル付けされたエンティティのリストを含む配列。	[]
`location`	`{DOCUMENT-NAME}`	ストレージコンテナー内のドキュメントの場所。すべてのドキュメントはコンテナーのルートに含まれているので、これはドキュメント名にする必要があります。	`doc1.txt`
`dataset`	`{DATASET}`	トレーニング前に分割される場合、このファイルの移動先のテストセット。データの分割の詳細については、こちらを参照してください。このフィールドで使用できる値は `Train` および `Test` です。	`Train`
`offset`		テキスト内のセンチメントの先頭の包括的な文字位置。	`0`
`length`		UTF16 文字を基準とした場合の境界ボックスの長さ。トレーニングではこの領域のデータのみが考慮されます。	`500`
`category`		指定されたテキストのスパンに関連付けられているセンチメント。	`positive`
`offset`		エンティティテキストの開始位置。	`25`
`length`		UTF16 文字を基準とした場合のエンティティの長さ。	`20`
`language`	`{LANGUAGE-CODE}`	プロジェクトで使用されるドキュメントの言語コードを指定する文字列。プロジェクトが多言語プロジェクトの場合は、ほとんどのドキュメントの言語コードを選択します。サポートされている言語コードの詳細については、言語サポートを参照してください。	`en-us`

次の手順

ラベル付きデータをプロジェクトに直接インポートできます。プロジェクトをインポートする方法を学習する
データのタグ付けに関する詳細については、操作方法に関する記事を参照してください。データのタグ付けが完了したら、モデルをトレーニングできます。

次の方法で共有

受け入れられるカスタムセンチメント分析データ形式

ラベルのファイル形式

次の手順

フィードバック

その他のリソース

次の方法で共有

受け入れられるカスタム センチメント分析データ形式

ラベルのファイル形式

次の手順

フィードバック

その他のリソース

受け入れられるカスタムセンチメント分析データ形式