次の方法で共有


Genie スペースでベンチマークを使用する

このページでは、ベンチマークを使用して Genie 空間の精度を評価する方法について説明します。

概要

ベンチマークを使用すると、Genie の全体的な応答精度を評価するために実行できる一連のテスト質問を作成できます。 よく寄せられるユーザーの質問をカバーするよう、ベンチマークのセットが適切に設計されることで、Genie スペースを調整する際の正確性の評価に役立ちます。 各 Genie スペースには、最大 500 個のベンチマークの質問を含めることができます。

ベンチマークの質問は、新しい会話として実行されます。 スレッド化された Genie 会話と同じコンテキストは含まれません。 各質問は、指定された SQL 関数と SQL 関数の例を含め、スペースで定義されている命令を使用して、新しいクエリとして処理されます。

9 つの質問に関する正確なベンチマーク例を報告します。

ベンチマークの質問を追加する

ベンチマークの質問は、ユーザーによって寄せられる一般的な質問についてのさまざまな言い方を反映している必要があります。 これらを使用して、質問のフレージングや異なる質問形式のバリエーションに対する Genie の応答を確認できます。

ベンチマークの質問を作成する際、必要に応じて、結果セットが正しい回答である SQL クエリを含めることができます。 ベンチマークの実行中に、SQL クエリの結果セットと Genie によって生成された結果セットを比較することで、正確性が評価されます。 Unity カタログ SQL 関数をベンチマークのゴールド スタンダードの回答として使用することもできます。

ベンチマークの質問を追加するには:

  1. Genie スペースの上部にある [ ベンチマーク] をクリックします。

  2. [ベンチマークを追加] をクリックします。

  3. [質問] フィールドに、テストするベンチマークの質問を入力します。

  4. (省略可能)質問に回答する SQL クエリを指定します。 Unity Catalog SQL 関数を含む SQL Answer テキスト フィールドに入力することで、独自のクエリを作成できます。 または、[SQL の 生成 ] をクリックして Genie に SQL クエリを作成してもらう必要があります。 入力した質問に正確に回答する SQL ステートメントを使用します。

    注釈

    この手順は推奨されています。 この例の SQL ステートメントを含む質問のみが、正確性について自動で評価されます。 SQL の回答を含まない質問については、手動でレビューを行いスコアリングする必要があります。 [ SQL の生成 ] ボタンを使用する場合は、ステートメントを確認して、質問に正確に回答していることを確認します。

  5. (省略可能)実行 をクリックしてクエリを実行し、結果を表示します。

  6. 編集が完了したら、[ ベンチマークの追加] をクリックします。

  7. 保存後に質問を更新するには、[編集] アイコン 鉛筆アイコンをクリックして [Update question (質問を更新)] ダイアログを開きます。

ベンチマークを使用して代替の質問の言い回しをテストする

Genie 空間の精度を評価するときは、現実的なシナリオを反映するようにテストを構成することが重要です。 ユーザーは、異なる言い方で同じ質問をすることがあります。 Databricks では、同じ質問における複数の言い回しを追加し、ベンチマーク テストで同じ例の SQL を使用して、正確性を完全に評価することが推奨されます。 ほとんどの Genie 空間には、同じ質問の 2 から 4 つの言い回しを含める必要があります。

ベンチマークの質問を実行する

Genie 空間で少なくとも CAN EDIT 権限を持つユーザーは、いつでもベンチマーク評価を実行できます。 すべてのベンチマークの質問を実行することも、テストする質問のサブセットを選択することもできます。

各質問について、Genie は入力を解釈し、SQL を生成し、結果を返します。 生成された SQL と結果は、ベンチマークの質問で定義されている SQL 回答 と比較されます。

すべてのベンチマークの質問を実行するには:

  1. Genie スペースの上部にある [ ベンチマーク] をクリックします。
  2. [実行ベンチマーク] をクリックしてテストの実行を開始します。

ベンチマークの質問のサブセットを実行するには:

  1. Genie スペースの上部にある [ ベンチマーク] をクリックします。
  2. テストする質問の横にあるチェック ボックスをオンにします。
  3. [ 選択した実行 ] をクリックして、選択した質問でテストの実行を開始します。

前のベンチマーク結果から質問のサブセットを選択し、それらの特定の質問を再実行して改善点をテストすることもできます。

ページから離れると、ベンチマークは引き続き実行されます。 実行が完了したら、[ 評価 ] タブで結果を確認できます。

評価を解釈する

Genie の応答の評価方法は、次の条件によって決まります。

条件 Rating
Genie は、指定された SQL 回答と完全に一致する SQL を生成します よし
Genie は、SQL Answer によって生成された結果セットと正確に一致する結果セットを生成します よし
Genie は 、SQL Answer と同じデータを使用して結果セットを生成しますが、並べ替えが異なります よし
Genie は、SQL Answer と同じ 4 桁の有効桁数に丸める数値を含む結果セットを生成します よし
Genie は、空の結果セットを生成するか、エラーを返す SQL を生成します 悪い
Genie は、SQL Answer によって生成された結果セットと比較して追加の列を含む結果セットを生成します 悪い
Genie は、SQL Answer によって生成される単一のセルの結果とは異なる単一のセル結果を生成します 悪い

手動レビューが必要: Genie が正確性を評価できない場合、または Genie によって生成されたクエリ結果に、指定された SQL 回答の結果と完全に一致するものが含まれていない場合、応答はこのラベルでマークされます。 SQL Answer (SQL 回答) を含まないベンチマークの質問は、手動でレビューする必要があります。

ベンチマークの評価にアクセスする

ベンチマークの評価すべてにアクセスして、Genie スペースの正確性を時間の経過とともに追跡できます。 スペースの ベンチマークを開くと、評価実行のタイムスタンプ付きリストが [評価] タブに表示されます。評価の実行が見つからない場合は、「ベンチマークの質問 追加する」または「ベンチマークの質問実行する」を参照してください。

次のテキストで説明されている [評価] の画面。

[評価] タブには、評価の概要とそのパフォーマンスが次のカテゴリで報告されます。

評価名: 評価の実行がいつ発生したかを示すタイムスタンプ。 タイムスタンプをクリックすると、その評価の詳細が表示されます。 [実行ステータス]: 評価が完了したか、一時停止したか、失敗したかを示します。 評価実行に定義済みの SQL 回答がないベンチマークの質問が含まれている場合、この列ではレビュー対象としてマークされます。 [正確性]: ベンチマークの質問すべての正確性が数値で評価されます。 手動のレビューを必要とする評価実行では、正確性の測定はこれらの質問がレビューされた後にのみ表示されます。 [作成者]: 評価を実行したユーザーの名前を示します。

個々の評価を確認する

個々の評価をレビューして、各応答の詳細を確認できます。 質問の評価を編集して、手動のレビューが必要な項目を更新できます。

個々の評価をレビューするには:

  1. Genie スペースの上部にある [ ベンチマーク] をクリックします。

  2. Evaluation name 列の評価のタイムスタンプをクリックして、そのテストの実行についての詳細ビューを開きます。

    1 回の評価実行の結果を示す画面。すべての質問が左側に一覧表示されます。該当する場合、モデル出力とグラウンドトゥルース出力を使用すると、個々の質問が右側に表示されます。

  3. 画面の左側にある質問リストを使用して、各質問の詳細ビューを表示します。

  4. モデル出力応答とグラウンドトゥルース応答を確認して比較します。

    結果が正しくないと評価された場合、結果が Bad と評価された理由を説明する説明が表示されます。 これにより、生成された出力と期待される真実のデータの具体的な違いを理解するのに役立ちます。

    注釈

    これらの応答の結果は、評価の詳細に 1 週間表示されます。 1 週間後、結果は表示されなくなります。 生成された SQL ステートメントと SQL ステートメントの例はそのまま残ります。

  5. この質問の新しい 地上の真理 として応答を保存するには、[ 地上の真理 を更新] をクリックします。 これは、地上の真理が存在しない場合、または応答が既存の地上真理書よりも優れているか正確である場合に役立ちます。

  6. ラベルの [編集] アイコン をクリックして評価を編集します。

    各結果を良好または不良としてマークして、この評価の正確なスコアを取得します。