発話の例のセットを使用したバッチテスト

[アーティクル]
01/19/2024

重要

LUIS は 2025 年 10 月 1 日に廃止され、2023 年 4 月 1 日から新しい LUIS リソースを作成できなくなります。継続的な製品サポートと多言語機能のベネフィットを得るために、LUIS アプリケーションを会話言語理解に移行することをお勧めします。

バッチテストでは、アクティブなトレーニング済みバージョンを検証して、その予測精度を測定します。バッチテストは、アクティブなバージョンに含まれる各意図やエンティティの精度を確認するのに役立ちます。バッチテストの結果を確認して、アプリが正しい意図の識別に頻繁に失敗する場合は意図により多くの発話の例を追加したり、発話内のエンティティをラベル付けしたりするなど、精度を向上させるための適切なアクションを実行します。

バッチテスト用のグループデータ

バッチテストに使用される発話が、LUIS にとって初めてであることが重要です。発話のデータセットがある場合は、発話を 3 つのセットに分割します。意図に追加されるサンプルの発話、公開されているエンドポイントから受信した発話、およびトレーニング後に LUIS をバッチテストするために使用される発話です。

使用するバッチ JSON ファイルには、発話と共に、開始位置と終了位置を含むラベル付けされた機械学習エンティティが最上位に存在する必要があります。既にアプリに存在する例の一部を発話に使用することは避けてください。意図やエンティティを肯定的に予測したいと考える発話を使用する必要があります。

テストは意図やエンティティごとに分けてもかまいませんし、すべてのテスト (発話の数は 1,000 個まで) を同じファイルに含めてもかまいません。

バッチインポートでの一般的なエラー

バッチファイルを LUIS にアップロードするときにエラーが発生した場合は、次の一般的な問題について確認してください。

1 つのバッチファイルに 1,000 を超える発話がある。
エンティティプロパティがない発話 JSON オブジェクト。プロパティは空の配列でもかまいません。
複数のエンティティにラベルが付いている単語
先頭または末尾がスペースであるエンティティラベル。

バッチのエラーの修正

バッチテストでエラーがある場合は、より多くの発話を意図に追加したり、LUIS が意図を区別する助けとなるエンティティを使用して、より多くの発話にラベル付けしたりできます。発話を追加し、それらにラベル付けしてもバッチテストで予測エラーが発生する場合は、LUIS がより迅速に学習する助けになるように、ドメイン固有のボキャブラリを含む語句一覧機能を追加することを検討してください。

LUIS ポータル
REST API

LUIS ポータルを使用したバッチテスト

サンプルアプリをインポートしてトレーニングする

ピザの注文 (例: 1 pepperoni pizza on thin crust) を受け付けるアプリをインポートします。

アプリの JSON ファイルをダウンロードして保存します。
LUIS ポータルにサインインし、自分のサブスクリプションと作成リソースを選択して、その作成リソースに割り当てられているアプリを表示します。
[新しいアプリ] の横にある矢印を選択し、 [JSON としてインポート] をクリックして新しいアプリに JSON をインポートします。アプリに Pizza app という名前を付けます。
ナビゲーションの右上隅にある [Train](トレーニング) を選択して、アプリのトレーニングを行います。

バッチテストでのロール

注意事項

エンティティロールは、バッチテストではサポートされていません。

バッチテストファイル

サンプル JSON には、テストファイルの体裁を示すために、ラベル付けされたエンティティを含む発話が 1 つ含まれています。実際のテストでは、適切な意図と機械学習エンティティがラベル付けされた発話を多数含める必要があります。

テキストエディターで pizza-with-machine-learned-entity-test.json を作成するか、またはダウンロードします。

JSON 形式のバッチファイルで、テストで予測されるようにしたい意図を持つ発話を追加します。

[
    {
        "text": "I want to pick up 1 cheese pizza",
        "intent": "ModifyOrder",
        "entities": [
            {
                "entity": "Order",
                "startPos": 18,
                "endPos": 31
            },
            {
                "entity": "ToppingList",
                "startPos": 20,
                "endPos": 25
            }
        ]
    }
]

バッチを実行する

上部のナビゲーションバーの [Test](テスト) を選択します。
右側のパネルで、 [Batch testing panel](バッチテストパネル) を選択します。
[インポート] を選択します。表示されるダイアログボックスで、 [ファイルの選択] を選択し、テスト対象の "1,000 個以下" の発話を含む、正しい JSON 形式の JSON ファイルを見つけます。

インポートエラーは、ブラウザーの上部にある赤い通知バーで報告されます。インポートでエラーが発生した場合、データセットは作成されません。詳細については、一般的なエラーに関するトピックをご覧ください。
pizza-with-machine-learned-entity-test.json ファイルのファイルの場所を選択します。
データセットに pizza test という名前を付け、 [完了] を選択します。
[実行] ボタンを選択します。

バッチテストが完了すると、次の列が表示されます。

列	説明
State	テストの状態。 [結果の表示] はテストが完了した後にのみ表示されます。
名前	テストに指定した名前。
サイズ	このバッチテストファイル内のテスト数。
[最終実行]	このバッチテストファイルを最後に実行した日付。
最終結果	テスト内の成功した予測数。

テストの詳細な結果を表示するには、 [結果の表示] を選択します。
ヒント
- [ダウンロード] を選択すると、アップロードしたものと同じファイルがダウンロードされます。
- バッチテストが失敗したと表示された場合は、少なくとも 1 つの発話の意図が予測と一致していません。

意図のバッチ結果を確認する

バッチテストの結果を確認するには、 [See results](結果の表示) を選択します。このテスト結果は、アクティブなバージョンで、テストの発話がどのように予測されるかをグラフィカルに示しています。

バッチのグラフには、結果の 4 つのセクションが表示されます。グラフの右側にはフィルターがあります。このフィルターには意図とエンティティが含まれています。グラフのセクションまたはグラフ内の点を選択すると、関連付けられた発話がグラフの下に表示されます。

グラフの上にカーソルを置いている間は、マウスホイールでグラフ内の表示を拡大または縮小できます。これは、まとめて緊密にクラスタ化されたグラフ上に多数の点が存在する場合に役立ちます。

このグラフには 4 つのセクションがあり、そのうちの 2 つのセクションは赤色で表示されます。

フィルター一覧の ModifyOrder 意図を選択します。発話は真陽性として予測されます。つまり発話が、バッチファイルにリストされたその陽性の予測と適切に一致したことを意味します。

フィルター一覧内の緑色のチェックマークでも、それぞれの意図のテストの成功が示されます。その他の意図はすべて 1/1 の正のスコアで表示されています。これは、それぞれの意図に対する発話のテストが、バッチテストにリストされていない意図に対する陰性テストとして実行されたためです。
Confirmation 意図を選択します。この意図はバッチテストにはリストされていません。つまりこれは、バッチテストにリストされた発話の陰性テストとなります。

グリッドとフィルター内の緑色のテキストが示すように、陰性テストは成功しています。

エンティティのバッチテスト結果を確認する

ModifyOrder エンティティは、サブエンティティを伴ったマシンエンティティとして、最上位のエンティティが一致したかどうかを表示すると共に、サブエンティティがどのように予測されたかを表示します。

フィルター一覧の ModifyOrder エンティティを選択し、グリッド内の円を選択します。
エンティティの予測がグラフの下に表示されます。期待と一致する予測は実線で、期待と一致しない予測は点線で表示されます。

グラフの結果のフィルター処理

特定の意図またはエンティティでグラフをフィルター処理するには、右側のフィルター処理パネルで意図またはエンティティを選択します。グラフのデータポイントとその分布が、選択した内容に応じて更新されます。

視覚化されたバッチテストの結果

グラフ結果の例

LUIS ポータルのグラフでは、次の操作を実行できます。

単一ポイントの発話データの表示

グラフで、データポイントの上にポインターを置くと、その予測の確実性を示すスコアが表示されます。データポイントを選択すると、ページ下部にある発話一覧で、そのデータポイントに対応する発話を確認できます。

選択した発話

セクションデータの表示

4 つのセクションで構成されるグラフで、セクション名を選択します。たとえば、グラフの右上のセクションの [False Positive](誤検知) を選択します。そのセクションのすべての発話が、グラフの下に一覧表示されます。

セクションで選択した発話

前の画像では、発話 switch on に TurnAllOn 意図のラベルが付いていますが、None 意図の予測を受け取りました。つまり、想定される予測を得るには、TurnAllOn 意図に発話の例がさらに必要であるということです。

グラフ上で赤で示されている 2 つのセクションは、想定される予測と一致しなかった発話を示します。これらのセクションが示す発話については、LUIS でのトレーニングがさらに必要であることを示します。

グラフ上で緑色で示されている 2 つのセクションは、想定される予測と一致しました。

REST API を使用したバッチテスト

LUIS では、LUIS ポータルと REST API を使用してバッチテストを行うことができます。 REST API のエンドポイントを下に示します。 LUIS ポータルを使用したバッチテストの詳細については、チュートリアル: バッチテストのデータセットに関する記事を参照してください。下の完全な URL を使用して、プレースホルダーの値を独自の LUIS 予測キーとエンドポイントに置き換えます。

必ずヘッダーで LUIS キーを Ocp-Apim-Subscription-Key に追加し、さらに Content-Type を application/json に設定してください。

バッチテストを開始する

アプリのバージョン ID または発行スロットのいずれかを使用して、バッチテストを開始します。 POST 要求を、次のいずれかのエンドポイント形式に送信します。要求の本文にバッチファイルを含めます。

発行スロット

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/slots/<YOUR-SLOT-NAME>/evaluations

アプリのバージョン ID

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/versions/<YOUR-APP-VERSION-ID>/evaluations

これらのエンドポイントは、状態の確認と結果の取得に使用する操作 ID を返します。

進行中のバッチテストの状態を取得する

開始したバッチテストの操作 ID を使用して、次のエンドポイント形式からその状態を取得します。

発行スロット

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/slots/<YOUR-SLOT-ID>/evaluations/<YOUR-OPERATION-ID>/status

アプリのバージョン ID

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/versions/<YOUR-APP-VERSION-ID>/evaluations/<YOUR-OPERATION-ID>/status

バッチテストの結果を取得する

開始したバッチテストの操作 ID を使用して、次のエンドポイント形式からその結果を取得します。

発行スロット

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/slots/<YOUR-SLOT-ID>/evaluations/<YOUR-OPERATION-ID>/result

アプリのバージョン ID

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/versions/<YOUR-APP-VERSION-ID>/evaluations/<YOUR-OPERATION-ID>/result

発話のバッチファイル

バッチテストのために、データセットと呼ばれる発話のバッチファイルを送信します。データセットは JSON 形式のファイルで、ラベル付きの発話が最大 1,000 件含まれます。アプリでは、最大 10 個のデータセットをテストできます。さらにテストする必要がある場合は、データセットを削除し、新しいものを追加します。バッチファイルデータ内に対応するエンティティが存在しない場合でも、モデル内のすべてのカスタムエンティティがバッチテストのエンティティのフィルターに表示されます。

バッチファイルは、発話で構成されます。各発話には、検出されると予期されている機械学習によるエンティティすべてと共に、予期される意図の予測が必要です。

エンティティがある意図のバッチ構文テンプレート

次のテンプレートを使用してバッチファイルを開始します。

{
    "LabeledTestSetUtterances": [
        {
            "text": "play a song",
            "intent": "play_music",
            "entities": [
                {
                    "entity": "song_parent",
                    "startPos": 0,
                    "endPos": 15,
                    "children": [
                        {
                            "entity": "pre_song",
                            "startPos": 0,
                            "endPos": 3
                        },
                        {
                            "entity": "song_info",
                            "startPos": 5,
                            "endPos": 15
                        }
                    ]
                }
            ]
        }
    ]
}

バッチファイルは、startPos および endPos プロパティを使用して、エンティティの開始と終了をメモします。これらの値は 0 から始まり、スペースで開始または終了してはいけません。これは、startIndex および endIndex プロパティを使用するクエリログとは異なります。

エンティティをテストしないようにする場合は、entities プロパティを含め、値を空の配列 [] として設定します。

REST API バッチテストの結果

API によって返されるオブジェクトはいくつかあります。

精度、再現率、F スコアなど、意図とエンティティのモデルに関する情報。
各エンティティのエンティティモデルに関する情報 (精度、再現率、F スコアなど)。
- verbose フラグを使用すると、entityTextFScore や entityTypeFScore など、エンティティに関する詳細情報を取得できます。
提供された発話と、予測されラベルが付けられた意図名。
偽陽性のエンティティの一覧と、偽陰性のエンティティの一覧。

次のステップ

ご自身の LUIS アプリで正しい意図とエンティティが認識されないことがテストによって示されている場合、LUIS アプリのパフォーマンスを向上させるには、発話にさらに多くのラベルを付けるか、機能を追加します。

発話の例のセットを使用したバッチ テスト

バッチ テスト用のグループ データ

バッチ インポートでの一般的なエラー

バッチのエラーの修正

LUIS ポータルを使用したバッチ テスト

サンプル アプリをインポートしてトレーニングする

バッチ テストでのロール

バッチ テスト ファイル

バッチを実行する

意図のバッチ結果を確認する

エンティティのバッチ テスト結果を確認する

グラフの結果のフィルター処理

グラフ結果の例

単一ポイントの発話データの表示

セクション データの表示

次のステップ

その他のリソース

発話の例のセットを使用したバッチテスト

バッチテスト用のグループデータ

バッチインポートでの一般的なエラー

LUIS ポータルを使用したバッチテスト

サンプルアプリをインポートしてトレーニングする

バッチテストでのロール

バッチテストファイル

エンティティのバッチテスト結果を確認する

セクションデータの表示