Unity Catalog を使用したデータ ガバナンス

このガイドでは、Azure Databricks でデータと AI オブジェクト アクセスを管理する方法について説明します。 Azure Databricks のセキュリティについては、「セキュリティ ガイド」を参照してください。 Azure Databricks は、Unity Catalog と Delta Sharing を使って、データと AI の一元的なガバナンスを実現しています。

Unity Catalog を使ってアクセス制御を一元化する

Unity Catalog は、Databricks プラットフォーム上のデータと AI に対する粒度の細かいガバナンス ソリューションです。 データと AI 資産へのアクセスを管理および監査するための一元的な場所を提供すると、データと AI 資産のセキュリティとガバナンスを簡素化するのに役立ちます。

ほとんどのアカウントでは、ワークスペースを作成するときに Unity Catalog が既定で有効になります。 詳細については、「Unity Catalog の自動有効化」を参照してください。

Unity Catalog を効果的に使用する方法については、「Unity Catalog のベスト プラクティス」を参照してください。

Unity Catalog を使ってデータ系列を追跡する

Unity Catalog を使用すると、Azure Databricks クラスターまたは SQL ウェアハウスに対して実行されたあらゆる言語のクエリを対象にランタイム データ系列をキャプチャできます。 系列は列レベルまで取り込まれ、クエリに関連するノートブック、ワークフロー、ダッシュボードを含んでいます。 詳細については、「Unity Catalog を使用したデータ系列のキャプチャと表示」を参照してください。

Catalog Explorer を使ってデータを検出する

Databricks Catalog Explorer は、スキーマ (データベース)、テーブル、ボリューム (表形式以外のデータ)、登録済み ML モデルなど、データと AI 資産を探索および管理するための UI と、資産のアクセス許可、データ所有者、外部の場所、資格情報を提供します。 Catalog Explorer の [分析情報] タブを使用すると、Unity Catalog に登録されているテーブルで頻繁に実行される最新のクエリとユーザーを表示できます。

Delta Sharing を使用したデータの共有

Delta Sharing は、使用するコンピューティング プラットフォームに関係なく、他の組織や、自組織内の他のチームと安全にデータと AI 資産を共有するために Databricks によって開発されたオープン プロトコルです。

監査ログを構成する

Databricks では、Databricks ユーザーが実行したアクティビティの監査ログにアクセスできるので、企業は詳細な Databricks の使用パターンを監視できます。

システム テーブル (パブリック プレビュー) で Unity Catalog を使うと、監査ログ、課金対象の使用状況、系列など、アカウントのオペレーショナル データに簡単にアクセスしてクエリを実行できます。

ID の構成

すべての優れたデータ ガバナンスのストーリーは、強力な ID Foundation から始まります。 Azure Databricks で ID を最適に構成する方法については、「ID のベスト プラクティス」を参照してください。

レガシ データ ガバナンス ソリューション

Azure Databricks には、次のレガシ ガバナンス モデルも用意されています。

  • テーブル アクセス制御は、ワークスペースの組み込みの Hive メタストアによって管理されているオブジェクトへのアクセスをプログラムで許可および取り消すことができるレガシ データ ガバナンス モデルです。 Databricks では、テーブル アクセス制御の代わりに Unity Catalog を使用することをお勧めします。 Unity Catalog は、アカウントの複数のワークスペースにまたがってデータ アクセスを管理および監査するための中心的な場所を提供することで、データのセキュリティとガバナンスを簡素化します。

  • Azure Data Lake Storage の資格情報パススルー (レガシ) もレガシ データ ガバナンス機能であり、Azure Databricks へのログインに使用したものと同じ Microsoft Entra ID (旧称 Azure Active Directory) を使用して、Azure Databricks クラスターから Azure Storage に対する認証を自動的に行うことができます。 Databricks では、代わりに Unity Catalog を使用することをお勧めします。