Azure Databricks には、Databricks Data Intelligence Platform を通じてアクセス可能なデータ資産の検出を簡素化する一連のツールと製品が用意されています。 この記事では、ワークスペースでアクセス用に構成されたデータを検出して確認する方法の概要を説明します。
- データ ソースに接続するには、「データ ソースと外部サービスへの接続」を参照してください。
- Databricks Marketplace でデータにアクセスする方法については、「 Databricks Marketplace とは」を参照してください。
このセクションのトピックでは、データ オブジェクトとデータ ファイルの探索に焦点を当てます。 ノートブック、SQL クエリ、ライブラリ、モデルなどの資産の操作に関する情報をお探しの場合は、「 ワークスペース UI」を参照してください。
探索的データ分析 (EDA) に関連付けられているデータセットまたはその他のタスクの概要統計の生成に関するガイダンスが必要な場合は、「 Azure Databricks の探索的データ分析: ツールと手法」を参照してください。
データ資産はどのように検出できますか?
Azure Databricks 上の検出ツールは、次の汎用カテゴリに分類されます。
- AI の支援による分析情報、要約、検索。
- キーワード検索
- UI を使用したカタログ探索。
- プログラムによる一覧表示とメタデータ探索。
データ検出ツールは、Unity Catalog で管理されるデータ用に最適化されています。 Unity Catalog オブジェクトとして登録されていないデータ資産は、これらのアプローチの一部を使用して検出できない場合があります。
UI を使用したデータの検索
カタログ エクスプローラーには、データ資産を探索および管理するためのツールが用意されています。 [データ] アイコンを使用してカタログ エクスプローラーにアクセスワークスペースサイドバーのカタログ。 「 カタログ エクスプローラーとは」を参照してください。
ノートブックと SQL クエリ エディターには、データベース オブジェクトを探索するためのカタログ ナビゲーターも用意されています。 コード エディターを終了せずに カタログ ナビゲーターを展開または折りたたみするには、これらのインターフェイスの [カタログ] アイコンをクリックします。
関心のあるデータセットが見つかったら、[ 分析情報 ] タブを使用して、ワークスペースでデータがどのように使用されているかを確認できます。 テーブルの 頻繁なクエリとユーザーの表示を参照してください。
プログラムでデータを探索する
すべてのデータベース オブジェクトで SHOW
コマンドを使用すると、Unity Catalog に登録されている資産を検出できます。
LIST
コマンド、%fs
マジック コマンド、または Databricks ユーティリティを使用してファイルを一覧表示できます。
「ストレージの探索とデータ ファイルの検索」および「データベース オブジェクトの探索」を参照してください。
データ コメントの確認
レイクハウスで利用可能なデータセットの内容について学習するするために、コメントを確認できます。 コメントは、カタログ、スキーマ、テーブル、列などのデータ オブジェクトに設定できます。 カタログ エクスプローラーまたはオブジェクトの DESCRIBE
コマンドでコメントを表示できます。
カタログ エクスプローラーは、AI で生成されたテーブルにコメントを提供し、データ資産所有者がデータセットの豊富な概要を簡単に提供できるようにします。 「Unity Catalog オブジェクトに AI によって生成されたコメントを追加する」を参照してください。
また、オプションでテーブルやその他のデータベース オブジェクトに Markdown を使用してコメントを記入することもできます。これは、カタログ エクスプローラーでレンダリングされます。 「データと AI 資産にコメントを追加する」を参照してください。
レイクハウスでのテーブルの検索
Azure Databricks の検索バーを使用して、Unity Catalog に登録されているテーブルを検索できます。 キーワード検索を実行するか、セマンティック検索を使用して、検索クエリに関連するデータセットや列を見つけることができます。 検索は、表示権限のあるテーブルの結果のみを返します。 検索は、テーブル名、列名、テーブル コメント、列コメントを確認します。 「ワークスペース オブジェクトの検索」を参照してください。