会話言語理解によって受け入れられるデータ形式
CLU にアップロードするデータは、特定の形式に従う必要があります。この記事を使用して、受け入れ可能なデータ形式の詳細を確認してください。
プロジェクト ファイル形式をインポートする
CLU にプロジェクトをインポートする場合、アップロードされるファイルは次の形式にする必要があります。
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Key | プレースホルダー | 値 | 例 |
---|---|---|---|
{API-VERSION} |
呼び出す API のバージョン。 | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
これはしきい値スコアです。これ未満の意図は None 意図として予測されます。 値は 0 から 1 です |
0.7 |
projectName |
{PROJECT-NAME} |
プロジェクトの名前。 この値は、大文字と小文字が区別されます。 | EmailApp |
multilingual |
true |
データセットで複数の言語の発話を得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニング ドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。 サポートされている言語コードの詳細については、言語サポートを参照してください。 | true |
sublists |
[] |
サブリストを含む配列。 各サブリストは、キーとそれに関連する値です。 | [] |
compositionSetting |
{COMPOSITION-SETTING} |
エンティティ内の複数のコンポーネントを管理する方法を定義するルール。 combineComponents または separateComponents のいずれかを選択できます。 |
combineComponents |
synonyms |
[] |
すべてのシノニムを含む配列 | シノニム |
language |
{LANGUAGE-CODE} |
プロジェクトで使用される発話、シノニム、および正規表現の言語コードを指定する文字列。 プロジェクトが多言語プロジェクトの場合は、大多数の発話の言語コードを選択します。 | en-us |
intents |
[] |
プロジェクト内にあるすべての意図を含む配列。 これらは、発話から分類される意図です。 | [] |
entities |
[] |
プロジェクト内のすべてのエンティティを含む配列。 これらは、発話から抽出されるエンティティです。 すべてのエンティティには、リスト、事前構築済み、または正規表現という追加のオプション コンポーネントを定義できます。 | [] |
dataset |
{DATASET} |
トレーニングの前に分割する場合にこの発話の移動先となるテスト セット。 データの分割の詳細については、こちらを参照してください。 このフィールドで使用できる値は Train および Test です。 |
Train |
category |
|
指定されたテキストのスパンに関連付けられているエンティティ型。 | Entity1 |
offset |
|
エンティティの開始文字位置 (その文字を含む)。 | 5 |
length |
|
エンティティの文字の長さ。 | 5 |
listKey |
|
予測でマップし直すシノニムの一覧の正規化された値。 | Microsoft |
values |
{VALUES-FOR-LIST} |
抽出用に正確に一致し、リスト キーにマップされるコンマ区切り文字列の一覧。 | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
予測にマップし直すための正規表現の正規化された値。 | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
正規表現。 | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
一般的な種類を抽出できる事前構築済みのコンポーネント。 ここで追加できる事前構築の一覧を見つけることができます。 | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
エンティティを返すために特定のコンポーネントが存在するという要件を指定する設定。 詳細については、ここを参照してください。 値には learned 、regex 、list 、prebuilts があります。 |
"learned", "prebuilt" |
発話のファイル形式
CLU には、発話を 1 つずつ入力するのではなく、プロジェクトに直接アップロードするオプションが用意されています。 このオプションは、自分のプロジェクトのデータのラベル付けページにあります。
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Key | プレースホルダー | 値 | 例 |
---|---|---|---|
text |
{Utterance-Text} |
発話テキスト | テスト |
language |
{LANGUAGE-CODE} |
プロジェクトで使用される発話の言語コードを指定する文字列。 プロジェクトが多言語プロジェクトの場合は、大多数の発話の言語コードを選択します。 サポートされている言語コードの詳細については、言語サポートを参照してください。 | en-us |
dataset |
{DATASET} |
トレーニングの前に分割する場合にこの発話の移動先となるテスト セット。 データの分割の詳細については、こちらを参照してください。 このフィールドで使用できる値は Train および Test です。 |
Train |
intent |
{intent} |
割り当てられる意図 | intent1 |
entity |
{entity} |
抽出されるエンティティ | entity1 |
category |
|
指定されたテキストのスパンに関連付けられているエンティティ型。 | Entity1 |
offset |
|
テキストの先頭の包括的な文字位置。 | 0 |
length |
|
UTF16 文字を基準とした場合の境界ボックスの長さ。 トレーニングではこの領域のデータのみが考慮されます。 | 500 |
次の手順
- ラベル付きデータをプロジェクトに直接インポートできます。 詳細については、「プロジェクトのインポート」を参照してください。
- データのタグ付けに関する詳細については、操作方法に関する記事を参照してください。 データのタグ付けが完了したら、モデルをトレーニングできます。