データの検出

Azure Databricks には、Databricks Data Intelligence Platform を通じてアクセス可能なデータ資産の検出を簡素化する一連のツールと製品が用意されています。 この記事では、ワークスペースでアクセス用に構成されたデータを検出して確認する方法の概要を説明します。

このセクションのトピックでは、データ オブジェクトとデータ ファイルの探索に焦点を当てます。 ノートブック、SQL クエリ、ライブラリ、モデルなどの資産の操作の詳細については、ワークスペースの移動に関する記事を参照してください。

データセットの概要統計情報の生成や、探索的データ分析 (EDA) に関連するその他のタスクに関するガイダンスをお探しの場合は、Azure Databricks での探索的データ分析: ツールと手法に関する記事を参照してください。

データ資産はどのように検出できますか?

Azure Databricks 上の検出ツールは、次の汎用カテゴリに分類されます。

  • AI の支援による分析情報、要約、検索。
  • キーワード検索
  • UI を使用したカタログ探索。
  • プログラムによる一覧表示とメタデータ探索。

データ検出ツールは、Unity Catalog で管理されるデータ用に最適化されています。 Unity Catalog オブジェクトとして登録されていないデータ資産は、これらのアプローチの一部を使用して検出できない場合があります。

UI を使用したデータの検索

カタログ エクスプローラーには、データ資産を探索および管理するためのツールが用意されています。 ワークスペースのサイド バーで Catalog icon[カタログ] を使用して、カタログ エクスプローラーにアクセスします。 「カタログ エクスプローラーとは」を参照してください。

ノートブックと SQL クエリ エディターには、データベース オブジェクトを探索するためのカタログ ナビゲーターも用意されています。 これらのインターフェイスで [カタログ] アイコンをクリックすると、コード エディターから移動することなくカタログ ナビゲーターを展開または折りたたむことができます。

興味のあるデータセットを見つけたら、[分析情報] タブを使用して、ワークスペースでのデータの使用方法を確認できます。 「テーブルの頻繁なクエリとユーザーを表示する」を参照してください。

プログラムでデータを探索する

すべてのデータベース オブジェクトで SHOW コマンドを使用すると、Unity Catalog に登録されている資産を検出できます。 LIST コマンド、%fs マジック コマンド、または Databricks ユーティリティを使用してファイルを一覧表示できます。

ストレージを探索してデータ ファイルを見つける」と「データベース オブジェクトを探索する」を参照してください。

データ コメントの確認

レイクハウスで利用可能なデータセットの内容について学習するするために、コメントを確認できます。 コメントは、カタログ、スキーマ、テーブル、列などのデータ オブジェクトに設定できます。 カタログ エクスプローラーまたはオブジェクトの DESCRIBE コマンドでコメントを表示できます。

カタログ エクスプローラーは、AI で生成されたテーブルにコメントを提供し、データ資産所有者がデータセットの豊富な概要を簡単に提供できるようにします。 「AI によって生成されたコメントをテーブルに追加する」を参照してください。

また、オプションでテーブルやその他のデータベース オブジェクトに Markdown を使用してコメントを記入することもできます。これは、カタログ エクスプローラーでレンダリングされます。 「Markdown コメントを使用して Catalog Explorer でデータをドキュメント化する」を参照してください。

レイクハウスでのテーブルの検索

Azure Databricks の検索バーを使用して、Unity Catalog に登録されているテーブルを検索できます。 キーワード検索を実行するか、セマンティック検索を使用して、検索クエリに関連するデータセットや列を見つけることができます。 検索は、表示権限のあるテーブルの結果のみを返します。 検索は、テーブル名、列名、テーブル コメント、列コメントを確認します。 「ワークスペース オブジェクトを検索する」を参照してください。