ダッシュボードを使用してアプリを改善する方法

[アーティクル]
01/19/2024

重要

LUIS は 2025 年 10 月 1 日に廃止され、2023 年 4 月 1 日から新しい LUIS リソースを作成できなくなります。継続的な製品サポートと多言語機能のベネフィットを得るために、LUIS アプリケーションを会話言語理解に移行することをお勧めします。

発話例を使用しているときに、トレーニング対象アプリの意図に関する問題を見つけて修正します。ダッシュボードには、修正する必要がある主な意図と共に、全体的なアプリ情報が表示されます。

レビューダッシュボード分析は、モデルを変更および改善するたびに繰り返される反復プロセスです。

このページには、意図に発話の例がないアプリ ("パターン専用" アプリと呼ばれます) に関する分析は表示されません。

ダッシュボードから修正できる問題

ダッシュボードで対処できる問題は次の 3 つです。

問題	グラフの色	説明
データの不均衡	-	これは、発話例の量が大幅に異なる場合に発生します。すべての意図の発話例は "およそ" 同数になるようにする必要があります。ただし、"None" の意図を除きます。これは、アプリ内の発話の総数の 10% から 15% にすることをお勧めします。データは不均衡でも、意図の正確性が特定のしきい値を超えている場合、この不均衡は問題として報告されません。この問題から始めましょう - 他の問題の根本的な原因である可能性があります。
不明瞭な予測	オレンジ	これは、最上位の意図とその次の意図のスコアが近すぎて、ネガティブサンプリングや意図に追加された発話例のために、次のトレーニングで変化する可能性がある場合に発生します。
正しくない予測	[赤]	これは、発話例がラベル付き意図 (その中にある意図) に対して予測されないときに発生します。

正しい予測は青色で表されます。

ダッシュボードには、これらの問題が表示され、影響を受ける意図が示され、アプリを改善するためにすべきことが提案されます。

アプリをトレーニングする前に

アプリをトレーニングする前のダッシュボードには、修正に関する提案は表示されません。アプリをトレーニングすると、これらの提案が表示されます。

発行状態を確認する

[Publishing status](発行状態) カードには、アクティブなバージョンの最後の発行に関する情報が表示されます。

アクティブなバージョンが修正対象のバージョンであることを確認します。

ダッシュボードには、アプリの外部サービス、発行されているリージョン、および集計されたエンドポイントのヒット数が表示されます。

これには、任意の外部サービス、発行されているリージョン、集計されたエンドポイントのヒット数も表示されます。

トレーニングの評価を確認する

[Training evaluation](トレーニング評価) カードには、アプリの全体的な正確性の領域別の集計された概要が表示されます。このスコアは意図の品質を示します。

$[Training evaluation]$トレーニング評価$ カードには、アプリの全体的な正確性に関する情報の最初の領域が表示されます。$

グラフには、正しく予測された意図と問題領域が色分けして示されます。提案を使ってアプリを改善すると、このスコアは上がります。

提案される修正は、問題の種類によって分類されており、アプリにとって最も重要です。意図ごとに問題を確認して修正する場合は、ページ下部にある [Intents with errors](エラーのある意図) カードを使用します。

各問題領域には、修正が必要な意図があります。意図名を選択すると、発話にフィルターが適用された [意図] ページが開きます。このフィルターを使用すると、問題を引き起こしている発話に集中することができます。

バージョン間の変更内容を比較する

アプリを変更する前に新しいバージョンを作成します。新しいバージョンでは、提案された変更を意図の発話例に加えてから、もう一度トレーニングします。 [ダッシュボード] ページの [Training evaluation](トレーニング評価) カードで、 [Show change from trained version](トレーニングしたバージョンからの変更を表示する) を使用して変更内容を比較します。

バージョン間の変更内容を比較する

発話例を追加または編集し、再トレーニングしてバージョンを修正する

アプリを修正する主な方法は、発話例を追加または編集して再トレーニングすることです。新規または変更された発話は、さまざまな発話のガイドラインに従う必要があります。

発話例の追加は、以下のいずれかのユーザーが行うことをお勧めします。

さまざまな意図にどのような発話があるかについて、深く理解している
ある意図の発話が別の意図とどのように混同される可能性があるかを把握している
相互に混同されることがよくある 2 つの意図を 1 つの意図にまとめるかどうかを判断できるこの場合、異なるデータをエンティティと共に取り出す必要があります。

パターンとフレーズの一覧

分析ページには、パターンまたはフレーズの一覧を使用するタイミングが示されません。それらの追加を実行した場合、正しくないまたは不明瞭な予測には役立ちますが、データの不均衡には役立ちません。

データの不均衡を確認する

この問題から始めましょう - 他の問題の根本的な原因である可能性があります。

データの不均衡の意図一覧には、データの不均衡を修正するために、さらに多くの発話が必要な意図が示されます。

この問題を解決するには:

さらに発話を意図に追加してから、もう一度トレーニングします。

ダッシュボードで提案されていない限り、None 意図に発話を追加しないでください。

ヒント

より多くの発話を必要とする意図をひと目で確認できるガイドとして、ページ上の 3 つ目のセクション [Utterances per intent](意図あたりの発話) と [Utterances (number)](発話 (数)) 設定を使用します。 $データの不均衡がある意図を見つけるには、[Utterances (number)]$発話 (数)$ を使用します。$

正しくない予測を確認する

正しくない予測の意図一覧には、特定の意図の例として使用されていますが、異なる意図のために予測されている発話のある意図が示されます。

この問題を解決するには:

意図がより具体的になるように発話を編集して、もう一度トレーニングします。
発話が過度に密接に配置されている場合は意図を結合して、もう一度トレーニングします。

不明瞭な予測を確認する

不明瞭な予測の意図一覧には、最も近いライバルからあまり離れておらず、ネガティブサンプリングのために発話の最上位の意図が次のトレーニングで変化する可能性がある予測スコアの発話がある意図が示されます。

この問題を解決するには:

意図がより具体的になるように発話を編集して、もう一度トレーニングします。
発話が過度に密接に配置されている場合は意図を結合して、もう一度トレーニングします。

意図ごとの発話

このカードには、意図全体のアプリの正常性が表示されます。今後、意図を修正して再トレーニングするときも、このカードで問題がないかを確認してください。

次のグラフは、修正すべき問題がほとんどない均衡のとれたアプリを示しています。

次のグラフは、修正すべき問題が多数ある不均衡なアプリを示しています。

意図ごとの予測を示すスクリーンショット。不明瞭または正しくない予測の結果がいくつか表示されています。

各意図の棒グラフにカーソルを合わせると、その意図に関する情報が表示されます。

意図ごとの予測を示すスクリーンショット。不明瞭または正しくない予測の結果の詳細が表示されています。

[並べ替えの基準] 機能を使用して問題の種類別に意図を並べ替えて、その問題に関して最も問題が深刻な意図に集中することができます。

エラーのある意図

このカードを使用すると、特定の意図に関する問題を確認できます。このカードの既定のビューが最も問題が深刻な意図なので、労力を集中すべき場所がわかります。

$[Intents with errors]$エラーを含む意図$ カードを使用すると、特定の意図の問題を確認できます。カードは既定で最も問題のある意図にフィルター処理されるため、作業に集中する場所がわかります。$

一番上のドーナツグラフには、3 つの問題の種類にまたがる意図に関する問題が示されます。 3 つの問題の種類に問題がある場合、それぞれの種類には、ライバルの意図と共に、独自のグラフが下に表示されます。

問題と割合別に意図をフィルター処理する

カードのこのセクションでは、エラーのしきい値を超えている発話例を見つけることができます。正しい予測が重要であることが理想的です。その割合はビジネスと顧客によって変わります。

お客様のビジネスに適したしきい値の割合を判断してください。

フィルターを使用すると、特定の問題がある意図を見つけることができます。

Assert	提案される割合	目的
Most problematic intents (最も問題が深刻な意図)	-	ここから始めましょう - この意図の発話を修正すると、他の修正よりもアプリが改善されます。
Correct predictions below (下回っている正しくない予測)	60%	これは、選択された意図のうち、正しくても信頼度スコアがしきい値を下回っている発話の割合です。
Unclear predictions above (上回っている不明瞭な予測)	15%	これは、選択された意図のうち、最も近いライバルの意図と混同されている発話の割合です。
Incorrect predictions above (上回っている正しくない予測)	15%	これは、選択された意図のうち、正しく予測されていない発話の割合です。

正しい予測のしきい値

お客様にとって確実な予測の信頼度スコアは何でしょうか。アプリ開発の始めには 60% が目標かもしれません。 60% の割合の [Correct predictions below](下回っている正しくない予測) を使用すると、選択された意図のうち、修正する必要があるすべての発話が表示されます。

不明瞭または正しくない予測のしきい値

これら 2 つのフィルターを使用すると、選択された意図のうち、しきい値を超えている発話が表示されます。これら 2 つの割合は、エラーの割合と考えることができます。予測のエラー率が 10-15% で問題がない場合は、フィルターのしきい値を 15% に設定すると、この値を超えるすべての発話が表示されます。

次のステップ

Azure リソースの管理

ダッシュボードを使用してアプリを改善する方法

ダッシュボードから修正できる問題

アプリをトレーニングする前に

発行状態を確認する

トレーニングの評価を確認する

バージョン間の変更内容を比較する

発話例を追加または編集し、再トレーニングしてバージョンを修正する

パターンとフレーズの一覧

データの不均衡を確認する

正しくない予測を確認する

不明瞭な予測を確認する

意図ごとの発話

エラーのある意図

問題と割合別に意図をフィルター処理する

正しい予測のしきい値

不明瞭または正しくない予測のしきい値

次のステップ

その他のリソース