このページでは、ビジネス チームが自然言語を使用してデータを操作できるようにする Azure Databricks 機能である AI/BI Genie について説明します。 組織の用語とデータに合わせて調整された生成 AI を使用し、ユーザーフィードバックを通じてパフォーマンスを監視および調整する機能を備えています。
概要
データ アナリストなどの分野の専門家は、Genie スペースをデータセット、サンプル クエリ、テキスト ガイドラインを使って構成し、Genie がビジネスの質問を分析クエリに変換することを支援できます。 設定後、ビジネス ユーザーは質問をしたり、視覚化を生成したりして、オペレーショナル データを理解できます。 データが変化し、ユーザーが新しい質問をする際に、Genie のセマンティック知識を継続的に更新できます。 Databricks AI を利用した機能の詳細については、 Databricks AI を利用した機能に関する説明を参照してください。
AI/BI Genie は、注釈付きテーブルと列から関連する名前と説明を選択して、自然言語の質問を同等の SQL クエリに変換します。 その後、可能であれば、生成されたクエリと結果テーブルで応答します。 Genie が回答を生成できない場合は、フォローアップの質問をして、回答を提供する前に明確にすることができます。
使用事例の例
異なる Genie スペースを作成して、さまざまな非技術的な対象ユーザーにサービスを提供できます。 以下のシナリオで、考えられる 2 つのユース ケースについて説明します。
例 1: 機会の状態の視覚化
営業マネージャーは、営業パイプラインの段階別に、進行中の案件と終了した案件の現在の状態を取得したいと考えています。 自然言語を使用して Genie スペースと対話し、視覚化を自動的に生成できます。
次の gif は、この対話を示しています。
例 2: ロジスティクスの追跡
ある物流会社は、Genie スペースを使用して、さまざまな部門のビジネス ユーザーが運用と財務の詳細を追跡できるようにしたいと考えています。 出荷施設のマネージャーが出荷を追跡するための Genie スペースを 1 つ設定し、もう 1 つは財務役員が財務の正常性を把握できるように設定しました。
どのようなデータを使用する必要がありますか?
Genie 空間は、Unity カタログに登録されたデータ、つまりマネージド テーブル、外部テーブル、フォーリンテーブル、ビュー、メトリック ビュー、具体化されたビューに基づいています。 AI/BI Genie は、Unity カタログ オブジェクトにアタッチされたメタデータと、作成者がキュレーションしたスペース レベルの ナレッジ ストアを使用して応答を生成します。 適切に注釈が付けられたデータセットと、指定した特定の手順を組み合わせることは、エンド ユーザーにとって肯定的なエクスペリエンスを作成するための鍵となります。
ファイルのアップロード
重要
この機能はパブリック プレビュー段階にあります。
ファイルのアップロードを使用すると、ユーザーはローカルの CSV ファイルと Excel ファイルと Unity カタログ データを組み合わせて質問に回答できます。 ファイルのアップロードを有効にするには、Databricks アカウント チームにお問い合わせください。 詳細については、「 ファイルのアップロード」を参照してください。
Genie のしくみ
Genie は、複合 AI システムを使用してビジネスの質問を解釈し、回答を生成します。 複合 AI システムでは、単一の大規模な言語モデルを使用する代わりに、複数の対話コンポーネントを組み合わせて AI アプリケーションのタスクを処理します。 複合 AI システムは、AI アプリケーションのパフォーマンスと柔軟性により、ますます一般的な設計パターンになっています。 詳細については、「モデルから複合 AI システムへの移行」を参照してください。
Genie のナレッジ ストアとは
Genie の作成者は、Genie 空間内のデータ資産に会社固有および空間固有のメタデータを直接追加できます。 これには、テーブルと列のメタデータの説明、列レベルのシノニム、サンプリングされた値、および値ディクショナリが含まれます。これは、Genie が回答を生成するときに参照します。 詳細なメタデータ レイヤーは、Genie が正しい情報を取得し、より正確な結果を生成するのに役立ちます。
Genie はどのようにして応答を生成しますか?
ユーザーが質問を送信すると、Genie が要求を解析し、関連するデータ ソースを識別し、プロンプトへの応答方法を決定します。 作成者が提供する詳細と Unity カタログ メタデータを組み合わせることで、Genie はビジネス ロジックと技術ロジックの両方を推論できます。 Genie は、SQL クエリの例、テーブルと列のメタデータ、チャット履歴をインテリジェントにフィルター処理して、要求に答えるための最も関連性の高い情報を選択します。
Genie は、次のコンポーネントを使用して応答を生成します。
- Unity カタログ テーブル メタデータ: テーブル名、説明、定義された主キー (PK) と外部キー (FK) のリレーションシップが含まれます。 Genie はこのデータを使用して要求を解析し、自然言語プロンプトを SQL に変換します。
- 列名と説明: Genie は、関連するどの列名と説明を含めるかをインテリジェントにフィルター処理します。
- ナレッジ ストア コンテキスト: 作成者は、Genie 空間で使用される資産のテーブル メタデータをローカルで編集できます。 これにより、Genie はより正確な応答を生成でき、既存の Unity カタログ メタデータは変更されません。 AI/BI Genie 空間の設定と管理に関するページを参照してください。
- SQL クエリの例: Genie は、SQL クエリから関連する SQL の例をインテリジェントに選択 します。
- SQL 関数: スペースに追加されたすべての SQL 関数。
- 命令: 一般的な命令として提供されるプレーンテキストのノートがコンテキストとして含まれます。
- プロンプトと応答の履歴: 現在のチャットのプロンプトと応答がコンテキストとして含まれます。 トークンの制限により、チャット レコードの最も古い部分は必要に応じて除外されます。
ノート
所有者やテーブル サイズなど、一部のテーブルの詳細は既定では含まれません。 この情報にアクセスするには、すべての Unity カタログ カタログで使用可能な情報スキーマのビューを使用します。 既定のビューには不要な詳細が含まれる場合があるため、その上にカスタム ビューを作成すると、必要な特定の情報に集中するのに役立ちます。 情報スキーマで使用できる内容の詳細については、「 情報スキーマ」を参照してください。
多くの場合、Genie は、スペースの SQL ウェアハウスで実行される SQL クエリを生成します。 生成されたクエリは常に読み取り専用です。 再試行は自動的に処理され、SQL ウェアハウスはコンカレンシーとスケールを処理します。 結果セットは応答の一部として表示されます。
Genie スペースを設定する
Genie スペースは、次の場合に作成できます。
- Databricks SQL アクセス権
- Pro またはサーバーレス SQL ウェアハウスに対する CAN USE 以上のアクセス許可。
- 1 つ以上の Unity Catalog データ オブジェクトに少なくとも
SELECT
特権を与えます。
AI/BI Genie 空間の設定と管理に関するページを参照してください。
Genie スペースの操作
ビジネス チームは Genie スペースのエンド ユーザーです。 Genie スペースを使用するには、ビジネス ユーザーに次の機能が必要です。
- コンシューマー アクセスまたは Databricks SQL エンタイトルメント。
- Genie スペース用に指定された既定のウェアハウスへの "CAN USE" 以上のアクセス許可。
- 空間で使用されるすべての Unity カタログ データ オブジェクトに対する少なくとも
SELECT
特権。
ビジネス ユーザーは、空間をテストし、開発中にフィードバックを提供することで、スペースのキュレーションを支援できます。 ビジネス ユーザーが Genie スペースの使用を開始する方法の詳細については、「 Genie スペースを使用してビジネス データを探索する」を参照してください。
信頼されたアセット
信頼できるアセットは、スペースのユーザーに結果の正確性についてさらなる安心感を与えます。 パラメーター化されたクエリ例または SQL 関数の正確なテキストを使用して応答を生成すると、Genie は応答を 信頼済みとしてマークします。 信頼された資産の詳細については、「 AI/BI Genie スペースで信頼された 資産を使用する」を参照してください。 パラメーター化されたクエリの操作の詳細については、SQL クエリでのパラメーターの使用に関するページを参照してください。
ベンチマークを使用して応答を評価する
ベンチマークを使用すると、Genie スペースでの個々の応答のテストと評価をスケールアップできます。 指示とは異なり、ベンチマークは情報提供のためではなく、Genie スペースを評価するためのものです。 Genie は、Genie のコンテキストを改善するためにベンチマークの質問や SQL の例を使用しません。
ベンチマークを使用すると、テストの質問のコレクションを実行し、応答を使用して Genie の精度を測定できます。 必要に応じて、期待される結果を返す SQL ステートメントを含めることができます。 ベンチマークの質問が実行されると、Genie の応答は SQL ステートメントによって提供された結果と比較され、精度のスコアが付けられます。 SQL の回答が提供されていない場合、質問はレビュー対象としてマークされます。
「Genie スペースでベンチマークを使用する」をご覧ください。
プライバシーとセキュリティ
Q: Genie はどのようなモデルを使用していますか?
Genie は、Databricks AI を利用した機能です。 AI モデル、取得、ランク付け、パーソナル化システムの使用を組み合わせた複合 AI システムを使用して、組織のデータと使用パターンを理解します。 詳細については、 Databricks AI を利用した機能に関するページを参照してください。
Q: モデルに送信されているデータは何ですか?
Genie は、応答を生成するときに、プロンプト、関連するテーブルのメタデータと値、エラー、入力コードまたはクエリを使用します。
Genie は応答を処理するために、次のコマンドを使用します。
- ユーザーによって送信された自然言語プロンプト
- テーブル名と説明
- 列のタイトル、説明、およびサンプル値
- 全般的な手順
- SQL クエリの例
- SQL 関数
Q: Azure OpenAI は自分のデータを格納しますか?
いいえ。 Databricks を介して Azure OpenAI モデルを使用する場合、Microsoft は、ネットワーク ログにさえも、どのレベルでも一定期間のプロンプトや応答を格納しません。 これには、通常は不正使用の監視に使用されるデータが含まれます。 Databricks は Azure OpenAI の不正使用の監視と人間によるレビューをオプトアウトしているため、Microsoft は Genie から送信されたデータを保持または検査しません。 詳細については、 Microsoft のドキュメントを参照してください。
Q: Genie の応答はどこに格納されますか?
Genie 応答は、Azure Databricks コントロール プレーンに格納されます。
Q: Genie 空間では行レベルのフィルター処理はサポートされていますか?
はい。Unity カタログで付与された権限は、特定のデータ オブジェクトにアクセスできるユーザーを制御します。 行フィルターまたは列マスクをデータ オブジェクトに適用する場合、結果セットで返される値を制御します。 「行フィルターと列マスク」を参照してください。
Q: トラフィックは Geos 経由でどのようにルーティングされますか?
Genie は、米国、EU、AUS、およびインドにデプロイされています。
トラフィックのルーティングは、リージョンおよび Geo 間の処理 が有効かどうか ([指定されたサービスに対してワークスペースの地理内でのデータ処理を強制する]が無効) によって異なります。
- EU: トラフィックは、クロス Geo 処理に関係なく、常に EU 経由でルーティングされます。
- 米国: トラフィックは、クロス Geo 処理に関係なく、常に米国を経由します。
- インドと AUS:
- Geo 間の処理が 無効になっている場合: トラフィックはリージョン内に留まる必要があります。
- Geo 間処理が 有効な場合: トラフィックは常に米国を経由します。
- その他のすべてのリージョン:
- Geo 間処理が 無効になっている場合:Genie は機能しません。
- Geo 間処理が 有効な場合: 米国経由のトラフィック ルート。