Important
この機能は パブリック プレビュー段階です。
このページでは、Databricks Assistant に機能を追加する Data Engineering Agent について説明します。 データ エンジニアリング エージェントを使用するには、アシスタントで [エージェント モード] を選択します。
Data Engineering エージェントは、Lakeflow Spark 宣言パイプライン (SDP) と Lakeflow Pipelines エディター専用に設計されており、データの探索、パイプライン コードの生成と実行、エラーの修正を 1 回のプロンプトから行います。
データ エンジニアリング エージェントとは
Data Engineering Agent は、Databricks Assistant エージェント モードの強力な機能であり、アシスタントを自律パートナーに変換し、SDP と Lakeflow Pipelines Editor でマルチステップ データ エンジニアリング ワークフロー全体を自動化できます。
アシスタント チャット モードと比較して、エージェント モードでは、ソリューションの計画、関連する資産の取得、コードの実行、パイプライン出力を使用した結果の改善、エラーの自動修正などの機能が拡張されています。
Data Engineering Agent は、パイプライン全体をゼロからエンドツーエンドで計画および生成したり、既存のパイプラインの作業を高速化したりできます。 エージェントは、続行する前に、お客様と協力してプランを承認し、次の手順を確認します。 Data Engineering Agent では、承認を得て、ツールを使用して、テーブルの検索、SQL または Python ソース ファイルの編集、パイプラインの更新の実行、パイプライン データセットの読み取りなどのタスクを実行できます。
データ エンジニアリング エージェントのアクセスとアクションは、ユーザーのアクセス許可によって管理されます。 アクセス権を持つデータにのみアクセスし、アクセス許可を持つ操作を実行できます。
注
アシスタントでエージェント モードを有効にすると、アシスタントは Databricks で現在使用している機能に基づいてその機能を調整します。 たとえば、Lakeflow Pipelines エディターでは、アシスタントはパイプラインの編集タスクとデータ エンジニアリング タスクに重点を置いています。 ノートブックと SQL エディターでは、アシスタントはデータの探索と分析をサポートします。 詳細については、「 データ サイエンス エージェント 」を参照してください。
Requirements
データ エンジニアリング エージェントを使用するには、ワークスペースに次のものが必要です。
- アカウントとワークスペースの両方で有効になっているパートナーを利用した AI 機能。 パートナーを利用した AI 機能を参照してください。
- Databricks Assistant エージェント モード プレビューが有効になっています。 Azure Databricks プレビューの管理を参照してください。
データ エンジニアリング エージェントの使用
データ エンジニアリング エージェントを使用するには:
Lakeflow Pipelines エディターで、[
をクリックしてアシスタントのサイド パネルを開きます。ワークスペースの右上隅にあるアシスタント。
右下隅にある [エージェント] を選択 します。 これにより、アシスタントのエージェント モードが切り替わり、データ エンジニアリング エージェントと対話できるようになります。
エージェントのプロンプトを入力してください。 たとえば、"このパイプラインについて説明する" など、パイプラインに関する質問をすることができます。 また、新しいデータセットを追加するように依頼することもできます。たとえば、"bronze_sales_dataから読み取ってデータをクリーンアップし、有用な品質の期待を追加する新しいファイルにsilver_sales_dataを作成する" などです。
注
エージェントはユーザーの Unity カタログのアクセス許可を尊重するため、アクセス権を持つデータとパイプライン ソースにのみアクセスできます。
エージェントが応答を生成すると、多くの場合、入力を取得するために一時停止します。
より複雑なタスクの場合、エージェントは段階的な計画を作成し、明確な質問をする場合があります。 エージェントの明確化するための質問に答えて、その計画をより良くする手助けをします。
エージェントは、コードを実行するかパイプラインを更新する必要がある場合、続行する前に承認を求めます。 要求を許可または拒否します。 このスレッドで [許可] (アシスタント会話スレッドを参照) または [常に許可] を選択することもできます。
Important
データ エンジニアリング エージェントは、パイプラインでコードを生成して実行できます。 危険な行動を防ぐためのガードレールがありますが、依然としてリスクがあります。 信頼できるデータでのみ使用し、実行する前にコードを確認する必要があります。
エージェントが作業を続行すると、[ 続行 ] または [拒否 ] を選択するように求められる場合があります。エージェントの既存の作業を確認し、[ 続行 ] を選択してエージェントが次の手順に進むのを許可するか 、[拒否] を選択して他の操作を試みるように指示します。
エージェントの動作中にエージェントを停止するには、赤い
をクリックします。
エージェントは、新しいファイルの作成、テキスト、クエリ、コードの生成、ファイルまたはパイプラインの実行、出力データセットへのアクセスを行って結果を解釈できます。
注
データ エンジニアリング エージェントが作業を続行し、次の手順を実行するには、エージェントが作業している現在のタブを維持する必要があります。
ヒント
エージェントがほとんどの応答で使用する手順を追加できます。 たとえば、使用するコード規則や、使用する推奨ライブラリがある場合は、エージェントの手順にこれらのガイドラインを追加できます。 また、ドメイン固有のタスクに特化した機能を使用してエージェントを拡張する スキル を作成することもできます。 詳細とその他のヒントについては、「 Databricks Assistant の応答をカスタマイズして改善する」を参照してください。
能力
データ エンジニアリング エージェントは、ほとんどのパイプライン開発タスクに役立ちます。 主な機能は次のとおりです。
- データ検出: エージェントはワークスペース内のテーブルを検索して、タスクに必要なデータを見つけるのに役立ちます。
- パイプライン コードの編集: エージェントは、一度に複数のファイルを作成および編集できます。 変更中のファイルに関する情報が保持され、各ファイルのコードの相違が表示されるので、最後に変更を個別に、またはすべてまとめて確認できます。
- パイプラインの実行: エージェントは、個々のファイルを実行したり、パイプラインをドライラン/実行したり、完全な更新を実行したりできます。 エージェントは、続行する前に確認を求めます。
- パイプラインの動作の理解と改善: エージェントはデータセットとパイプライン出力を検査して、パイプラインが何をエンドツーエンドで行っているかとその理由を理解するのに役立ちます。 たとえば、変換の要約、ダウンストリーム テーブルへのデータ フローの追跡、行数やスキーマの予期しない変更の強調表示などを行うことができます。 潜在的なデータ品質の問題が発生した場合、エージェントは原因を特定し、パイプライン内の場所と対処方法を提案するのに役立ちます。
これらの機能は、次のような一般的なユース ケースをサポートします。
- 新しいパイプラインの作成: データ エンジニアリング エージェントは、データの取り込みからデータの標準化とクリーニング、データの変換と分析まで、新しい medallion アーキテクチャ パイプラインを作成するすべての手順に役立ちます。
- パイプラインの説明: エージェントは、既存のパイプラインを分析して説明し、迅速に立ち上げるのに役立ちます。
- 問題の修正: エラーが発生した場合、エージェントは問題の診断と修正に役立ち、問題が解決されるまで複数のファイルを反復処理できます。
例示
開始するには、次のプロンプトを試してください。
- "my_catalog.my_schema のテーブル トランザクションと顧客を使用して不正行為を検出するための medallion アーキテクチャ パイプラインを構築して実行します。"
- "このパイプラインのすべてのステップについて説明します。"
- "このパイプラインのエラーを修正します。"