このページでは、ベンチマークを使用して Genie 空間の精度を評価する方法について説明します。
概要
ベンチマークを使用すると、Genie の全体的な応答精度を評価するために実行できる一連のテスト質問を作成できます。 よく寄せられるユーザーの質問をカバーするよう、ベンチマークのセットが適切に設計されることで、Genie スペースを調整する際の正確性の評価に役立ちます。
ベンチマークの質問は、新しい会話として実行されます。 スレッド化された Genie 会話と同じコンテキストは含まれません。 各質問は、指定された SQL 関数と SQL 関数の例を含め、スペースで定義されている命令を使用して、新しいクエリとして処理されます。
ベンチマークの質問を追加する
ベンチマークの質問は、ユーザーによって寄せられる一般的な質問についてのさまざまな言い方を反映している必要があります。 これらを使用して、質問のフレージングや異なる質問形式のバリエーションに対する Genie の応答を確認できます。
ベンチマークの質問を作成する際、必要に応じて、結果セットが正しい回答である SQL クエリを含めることができます。 ベンチマークの実行中に、SQL クエリの結果セットと Genie によって生成された結果セットを比較することで、正確性が評価されます。
ベンチマークの質問を追加するには:
をクリックします。Genie スペースの右上隅にある kebab メニュー。 次に、ベンチマークをクリックします。
[ベンチマークを追加] をクリックします。
[質問] フィールドに、テストするベンチマークの質問を入力します。
(オプション) 入力した質問に正確に回答する SQL ステートメントを入力します。
注釈
この手順は推奨されています。 この例の SQL ステートメントを含む質問のみが、正確性について自動で評価されます。 SQL の回答を含まない質問については、手動でレビューを行いスコアリングする必要があります。
(省略可能)実行 をクリックしてクエリを実行し、結果を表示します。
編集が完了したら、[ ベンチマークの追加] をクリックします。
保存後に質問を更新するには、
鉛筆アイコンをクリックして [Update question (質問を更新)] ダイアログを開きます。
ベンチマークを使用して代替の質問の言い回しをテストする
Genie 空間の精度を評価するときは、現実的なシナリオを反映するようにテストを構成することが重要です。 ユーザーは、異なる言い方で同じ質問をすることがあります。 Databricks では、同じ質問における複数の言い回しを追加し、ベンチマーク テストで同じ例の SQL を使用して、正確性を完全に評価することが推奨されます。 多くの Genie スペースで、同じ質問の言い回しが 2~4 パターン含まれている必要があります。
ベンチマークの質問を実行する
Genie スペースで少なくとも CAN EDIT アクセス許可を持つユーザーは、いつでもベンチマーク実行を作成できます。これは、すべてのベンチマークの質問で自動的に評価されます。 各ベンチマークの質問を評価するには、まず質問を Genie に送信し、次に Genie の結果をベンチマークと比較します。 各ベンチマークには、次のいずれかのラベルが適用されます。
- Good (良好): Genie によって生成されたクエリ結果が、提供された SQL Answer (SQL 回答) の結果と一致する場合、応答はこのラベルでマークされます。 応答がGood (良好)としてマークされている場合、並べ替え順序や列名に関係なく、行の値が正確に一致することを意味します。 生成された SQL にベンチマーク回答のすべての列が存在する限り、生成された SQL の追加の列は許容されます。
- 手動レビューが必要: Genie が正確性を評価できない場合、または Genie によって生成されたクエリ結果に、指定された SQL 回答の結果と完全に一致するものが含まれていない場合、応答はこのラベルでマークされます。 指定された SQL 回答のテーブル ディメンションに予期しない変更がある場合は、質問がレビュー対象としてマークされている可能性があります。 SQL Answer (SQL 回答) を含まないベンチマークの質問は、手動でレビューする必要があります。
- Bad (不良): 応答が自動で Bad (不良) としてラベル付けされることはありません。 Genie によって生成されたクエリ結果が、指定された SQL Answerの結果セットと一致しない場合、質問は 手動レビューが必要なとしてマークされます。 これらのベンチマークを確認するときに、Genie によって生成されたクエリ結果が質問に回答しないと思う場合は、結果を 無効 としてマークできます。
すべてのベンチマークの質問を実行するには:
-
をクリックします。Genie スペースの右上隅にある kebab メニュー。 次に、ベンチマークをクリックします。
- [実行ベンチマーク] をクリックしてテストの実行を開始します。
注釈
このページを閉じると、ベンチマークの実行が自動的に一時停止されます。 ページを再度開くと、テストを再開できます。
ベンチマークの評価にアクセスする
ベンチマークの評価すべてにアクセスして、Genie スペースの正確性を時間の経過とともに追跡できます。 スペースの ベンチマークを開くと、評価実行のタイムスタンプ付きリストが [評価] タブに表示されます。評価の実行が見つからない場合は、「ベンチマークの質問 追加する」または「ベンチマークの質問実行する」を参照してください。
[評価] タブには、評価の概要とそのパフォーマンスが次のカテゴリで報告されます。
[評価名]: 評価実行がいつ行われたかを示すタイムスタンプ。 タイムスタンプをクリックすると、その評価の詳細が表示されます。 [実行ステータス]: 評価が完了したか、一時停止したか、失敗したかを示します。 評価実行に定義済みの SQL 回答がないベンチマークの質問が含まれている場合、この列ではレビュー対象としてマークされます。 [正確性]: ベンチマークの質問すべての正確性が数値で評価されます。 手動のレビューを必要とする評価実行では、正確性の測定はこれらの質問がレビューされた後にのみ表示されます。 [作成者]: 評価を実行したユーザーの名前を示します。
個々の評価をレビューする
個々の評価をレビューして、各応答の詳細を確認できます。 質問の評価を編集して、手動のレビューが必要な項目を更新できます。
個々の評価をレビューするには:
をクリックします。Genie スペースの右上隅にある kebab メニュー。 次に、ベンチマークをクリックします。
Evaluation name 列の評価のタイムスタンプをクリックして、そのテストの実行についての詳細ビューを開きます。
画面の左側付近にある質問をクリックすると、関連する詳細が表示されます。 評価の詳細画面を使用して、次の手順を実行します。
モデル出力応答とグラウンドトゥルース応答を確認して比較します。
注釈
これらの応答の結果は、評価の詳細に 1 週間表示されます。 1 週間後、結果は表示されなくなります。 生成された SQL ステートメントと SQL ステートメントの例はそのまま残ります。
ラベルの
をクリックして評価を編集します。
各結果を良好または不良としてマークして、この評価の正確なスコアを取得します。