会話言語理解で使用される用語と定義
この記事を使用して、会話言語理解の使用時に遭遇する可能性のあるいくつかの定義と用語について理解します。
Entity
エンティティは、意図を達成または識別するために使用される情報を説明する発話内の単語です。 エンティティが複雑であり、モデルを使って特定の部分を識別できるようにする場合は、モデルをサブエンティティに分割できます。 たとえば、モデルで住所だけでなく、番地、市区町村、都道府県、郵便番号のサブエンティティも予測できます。
F1 スコア
F1 スコアは、精度とリコールの関数です。 精度とリコールのバランスを取るときに必要です。
Intent
意図は、ユーザーが実行しようとしているタスクまたはアクションを表します。 これは、フライトの予約や請求書の支払いなど、ユーザーの入力で表現される目的または目標です。
リスト エンティティ
リスト エンティティは、固定かつ限定された関連単語セットとそのシノニムを表します。 リスト エンティティは、機械学習エンティティとは異なり、完全一致です。
リスト エンティティの単語がリストに含まれている場合、エンティティは予測されます。 たとえば、"サイズ" というリスト エンティティがあり、リストに "小、中、大" という単語がある場合、コンテキストに関係なく、"小"、"中"、または "大" という単語が使用されるすべての発話に対してサイズ エンティティが予測されます。
モデル
モデルは、特定のタスク (ここでは、会話理解のタスク) を実行するためにトレーニングされるオブジェクトです。 モデルは、ラベル付けされた学習データを提供することでトレーニングされるので、後で発話を理解するために使用できます。
- モデルの評価は、モデルがどの程度適切に実行されるかを把握するために、トレーニングの直後に行うプロセスです。
- デプロイは、モデルをデプロイに割り当てて、予測 API を介して使用できるようにするプロセスです。
オーバーフィット
オーバーフィットは、モデルが特定の例に固定されていて、適切に一般化できない場合に発生します。
精度
モデルの精密さと正確さを測定します。 これは、正しく識別された陽性 (真陽性) と識別されたすべての陽性との比率です。 精度メトリックによって、予測クラスのうち、正しくラベル付けされている数が明らかになります。
Project
プロジェクトは、データに基づいてカスタム ML モデルを構築するための作業領域です。 プロジェクトにアクセスできるのは、自分と、使用されている Azure リソースへのアクセス権を持つユーザーのみです。
呼び戻し
実際の陽性クラスを予測するモデルの能力を測定します。 これは、予測された真陽性と実際にタグ付けされたものとの比率です。 リコール メトリックによって、予測クラスのうち、正しいものの数が明らかになります。
正規表現
正規表現エンティティは正規表現を表します。 正規表現エンティティは完全一致です。
スキーマ
スキーマは、プロジェクト内の意図とエンティティの組み合わせとして定義されます。 スキーマの設計は、プロジェクトの成功のための不可欠な要素です。 スキーマを作成するときに、プロジェクトに含める意図とエンティティを検討する必要があります。
トレーニング データ
トレーニング データは、モデルのトレーニングに必要な一連の情報です。
発話
発話は、会話内の文を表す短いテキストであるユーザー入力です。 "次の火曜日にシアトル行きのチケットを 2 枚予約する" などの自然言語フレーズです。 発話の例はモデルをトレーニングするために追加され、実行時には、新しい発話に対してそのモデルを使って予測されます