次の方法で共有


AI/BI Genie スペースとは

この記事では、ビジネス チームが自然言語を使用してデータを操作できるようになる Azure Databricks 機能である AI/BI Genie について紹介します。 組織の用語とデータに合わせて調整された生成 AI を使用し、ユーザーフィードバックを通じてパフォーマンスを監視および調整する機能を備えています。

概要

データ アナリストなどの分野の専門家は、Genie スペースをデータセット、サンプル クエリ、テキスト ガイドラインを使って構成し、Genie がビジネスの質問を分析クエリに変換することを支援できます。 設定後、ビジネス ユーザーは質問をしたり、視覚化を生成したりして、オペレーショナル データを理解できます。 データが変化し、ユーザーが新しい質問をする際に、Genie のセマンティック知識を継続的に更新できます。 Databricks AI を利用した機能の詳細については、 Databricks AI を利用した機能に関する説明を参照してください。

AI/BI Genie は、注釈付きテーブルと列から関連する名前と説明を選択して、自然言語の質問を同等の SQL クエリに変換します。 その後、可能であれば、生成されたクエリと結果テーブルで応答します。 Genie が回答を生成できない場合は、フォローアップの質問をして、回答を提供する前に明確にすることができます。

使用事例の例

異なる Genie スペースを作成して、さまざまな非技術的な対象ユーザーにサービスを提供できます。 以下のシナリオで、考えられる 2 つのユース ケースについて説明します。

例 1: 機会の状態の視覚化

営業マネージャーは、営業パイプラインの段階別に、進行中の案件と終了した案件の現在の状態を取得したいと考えています。 自然言語を使用して Genie スペースと対話し、視覚化を自動的に生成できます。

次の gif は、この対話を示しています。

質問、回答、自動生成された視覚化のサンプルを含む gif

例 2: ロジスティクスの追跡

ある物流会社は、Genie スペースを使用して、さまざまな部門のビジネス ユーザーが運用と財務の詳細を追跡できるようにしたいと考えています。 出荷施設のマネージャーが出荷を追跡するための Genie スペースを 1 つ設定し、もう 1 つは財務役員が財務の正常性を把握できるように設定しました。

Genie が応答を生成する方法

Genie は、複合 AI システムを使用してビジネスの質問を解釈し、回答を生成します。 複合 AI システムでは、単一の大規模な言語モデルを使用する代わりに、複数の対話コンポーネントを組み合わせて AI アプリケーションのタスクを処理します。 複合 AI システムは、AI アプリケーションのパフォーマンスと柔軟性により、ますます一般的な設計パターンになっています。 詳細については、「モデルから複合 AI システムへの移行」を参照してください。

ユーザーが質問を送信すると、Genie が要求を解析し、関連するデータ ソースを識別し、プロンプトへの応答方法を決定します。 提供された命令と Unity Catalog のメタデータを組み合わせることで、Genie がビジネス ロジックと技術ロジックの両方を推論できるようになります。 Genie は、SQL クエリの例、テーブルと列のメタデータ、チャット履歴をインテリジェントにフィルター処理して、要求に答えるための最も関連性の高い情報を選択します。

Genie は、次のコンポーネントを使用して応答を生成します。

  • テーブル メタデータ: テーブル名、説明、および定義済みの主キー (PK) と外部キー (FK) のリレーションシップが含まれます。 Genie はこのデータを使用して要求を解析し、自然言語プロンプトを SQL に変換します。
  • 列名と説明: Genie は、関連するどの列名と説明を含めるかをインテリジェントにフィルター処理します。
  • SQL クエリの例: Genie は、命令から関連する SQL の例をインテリジェントに選択します。
  • SQL 関数: スペースに追加されたすべての SQL 関数。
  • 命令: 一般的な命令として提供されるプレーンテキストのノートがコンテキストとして含まれます。
  • プロンプトと応答の履歴: 現在のチャットのプロンプトと応答がコンテキストとして含まれます。 トークンの制限により、チャット レコードの最も古い部分は必要に応じて除外されます。

ノート

所有者やテーブル サイズなど、一部のテーブルの詳細は既定では含まれません。 この情報にアクセスするには、すべての Unity カタログ カタログで使用可能な情報スキーマのビューを使用します。 既定のビューには不要な詳細が含まれる場合があるため、その上にカスタム ビューを作成すると、必要な特定の情報に集中するのに役立ちます。 情報スキーマで使用できる内容の詳細については、「 情報スキーマ」を参照してください。

多くの場合、Genie は、スペースの SQL ウェアハウスで実行される SQL クエリを生成します。 生成されたクエリは常に読み取り専用です。 再試行は自動的に処理され、SQL ウェアハウスはコンカレンシーとスケールを処理します。 結果セットは応答の一部として表示されます。

どのようなデータを使用する必要がありますか?

Genie 空間は、Unity カタログに登録されたデータ、つまりマネージド テーブル、外部テーブル、フォーリンテーブル、ビュー、メトリック ビュー、具体化されたビューに基づいています。 AI/BI Genie は、Unity Catalog のオブジェクトに添付されたメタデータを使って応答を生成します。 適切に注釈が付けられたデータセットと、指定した特定の手順を組み合わせることは、エンド ユーザーにとって肯定的なエクスペリエンスを作成するための鍵となります。

Databricks では次を行うことを推奨しています。

  • 分析での利用向けにデータをキュレーションする: 列の数を減らすようにビューを階層化し、ユース ケース固有の情報を追加して応答品質を向上させます。
  • Genie スペース内のテーブルと列の数は最小限に抑える: そのドメインの質問に回答するために必要なテーブルと列のみを含めてください。 不要なテーブルや列があると、Genie がわかりにくい回答や間違った回答を提供したり、エラー メッセージを表示したりする可能性があります。
  • 主キー (PK) と外部キー (FK) のリレーションシップを定義する: Unity Catalog を使用して PK と FK のリレーションシップを定義し、Genie がデータのつながりを理解できるようにしてください。

ファイルのアップロード

重要

この機能はパブリック プレビュー段階にあります。

ユーザーは、Genie スペースに独自の小さなデータ ファイルをアップロードすることもできます。 ファイルのアップロードを有効にするには、Databricks アカウント チームにお問い合わせください。 詳細については、「 ファイルのアップロード」を参照してください。

信頼されたアセット

信頼できるアセットは、スペースのユーザーに結果の正確性についてさらなる安心感を与えます。 パラメーター化されたクエリ例または SQL 関数の正確なテキストを使用して応答を生成すると、Genie は応答を 信頼済みとしてマークします。 「AI/BI Genie スペースで信頼されたアセットを使用する」を参照してください。

Genie とチャットする

Genie 空間でのほとんどの操作は、チャット ウィンドウまたは Genie API (パブリック プレビュー) を使用して行われます。 Genie 空間 UI では、各ユーザーはスレッド化された会話のレコードにアクセスできます。 各会話は、そのスレッド内の以前の対話からのコンテキストを保持します。これにより、Genie はフォローアップの質問を理解し、ユーザーが結果を絞り込んだり調査したりするのに役立ちます。

スペースに少なくとも閲覧権限を持つユーザーは、自分のチャット履歴を表示できます。 少なくとも CAN EDIT 権限を持つユーザーは、スペースの [監視 ] タブですべての質問と回答を確認できます。

回答を確認する

ほとんどの応答には、自然言語の説明と、関連する結果セットを示すテーブルが含まれます。 ソース テーブルは説明の下に表示され、結果の生成に使用される SQL クエリは応答の詳細で使用できます。 視覚化によって明瞭さが向上する場合には、Genieがそれを提供します。 各応答の構造は、質問によって異なります。

スペースのユーザーと作成者は、質問に対する回答を確認できます。 回答の評価とトラブルシューティングを行ったり、返信のレビューを求めたりすることができます。 空間エディターと作成者は、Genie 空間の [ 監視 ] タブを使用して、このフィードバックを確認できます。

ベンチマークを使用して応答を評価する

ベンチマークを使用すると、Genie スペースでの個々の応答のテストと評価をスケールアップできます。 指示とは異なり、ベンチマークは情報提供のためではなく、Genie スペースを評価するためのものです。 Genie は、Genie のコンテキストを改善するためにベンチマークの質問や SQL の例を使用しません。

ベンチマークを使用すると、テストの質問のコレクションを実行し、応答を使用して Genie の精度を測定できます。 必要に応じて、期待される結果を返す SQL ステートメントを含めることができます。 ベンチマークの質問が実行されると、Genie の応答は SQL ステートメントによって提供された結果と比較され、精度のスコアが付けられます。 SQL の回答が提供されていない場合、質問はレビュー対象としてマークされます。

Genie スペースでベンチマークを使用する」をご覧ください。

プライバシーとセキュリティ

Q: Genie はどのようなモデルを使用していますか?

Genie は、Databricks AI を利用した機能です。 AI モデル、取得、ランク付け、パーソナル化システムの使用を組み合わせた複合 AI システムを使用して、組織のデータと使用パターンを理解します。 詳細については、 Databricks AI を利用した機能に関するページを参照してください。

Q: モデルに送信されているデータは何ですか?

Genie は、応答を生成するときに、プロンプト、関連するテーブルのメタデータと値、エラー、入力コードまたはクエリを使用します。

Genie は応答を処理するために、次のコマンドを使用します。

  • ユーザーによって送信された自然言語プロンプト
  • テーブル名と説明
  • 列のタイトル、説明、およびサンプル値
  • 全般的な手順
  • SQL クエリの例
  • SQL 関数

Q: Azure OpenAI は自分のデータを格納しますか?

いいえ。 Databricks を介して Azure OpenAI モデルを使用する場合、Microsoft は、ネットワーク ログにさえも、どのレベルでも一定期間のプロンプトや応答を格納しません。 これには、通常は不正使用の監視に使用されるデータが含まれます。 Databricks は Azure OpenAI の不正使用の監視と人間によるレビューをオプトアウトしているため、Microsoft は Genie から送信されたデータを保持または検査しません。 詳細については、 Microsoft のドキュメントを参照してください

Q: Genie の応答はどこに格納されますか?

Genie 応答は、Azure Databricks コントロール プレーンに格納されます。

Q: Genie 空間では行レベルのフィルター処理はサポートされていますか?

はい。Unity カタログで付与された権限は、特定のデータ オブジェクトにアクセスできるユーザーを制御します。 行フィルターまたは列マスクをデータ オブジェクトに適用する場合、結果セットで返される値を制御します。 「行フィルターと列マスクを使用して機密性の高いテーブル データをフィルター処理する」を参照してください。

Q: トラフィックは Geos 経由でどのようにルーティングされますか?

  • Genie は、米国、EU、AUS、およびインドにデプロイされています。

  • トラフィック ルーティングは、リージョンと Geo 間の処理が有効かどうかによって異なります (指定されたサービスの Geography ワークスペース内でデータ処理を強制することは無効です)。

    • EU: トラフィックは、クロス Geo 処理に関係なく、常に EU 経由でルーティングされます。
    • 米国: トラフィックは、クロス Geo 処理に関係なく、常に米国を経由します。
    • インドと AUS:
      • Geo 間の処理が 無効になっている場合: トラフィックはリージョン内に留まる必要があります。
      • Geo 間処理が 有効な場合: トラフィックは常に米国を経由します。
    • その他のすべてのリージョン:
      • Geo 間処理が 無効になっている場合:Genie は機能しません。
      • Geo 間処理が 有効な場合: 米国経由のトラフィック ルート。