Unity Catalog を使用したデータガバナンス

[アーティクル]
03/14/2024

このガイドでは、Azure Databricks でデータと AI オブジェクトアクセスを管理する方法について説明します。 Azure Databricks のセキュリティについては、「セキュリティガイド」を参照してください。 Azure Databricks は、Unity Catalog と Delta Sharing を使って、データと AI の一元的なガバナンスを実現しています。

Unity Catalog を使ってアクセス制御を一元化する

Unity Catalog は、Databricks プラットフォーム上のデータと AI に対する粒度の細かいガバナンスソリューションです。データと AI 資産へのアクセスを管理および監査するための一元的な場所を提供すると、データと AI 資産のセキュリティとガバナンスを簡素化するのに役立ちます。

ほとんどのアカウントでは、ワークスペースを作成するときに Unity Catalog が既定で有効になります。詳細については、「Unity Catalog の自動有効化」を参照してください。

Unity Catalog を効果的に使用する方法については、「Unity Catalog のベストプラクティス」を参照してください。

Unity Catalog を使ってデータ系列を追跡する

Unity Catalog を使用すると、Azure Databricks クラスターまたは SQL ウェアハウスに対して実行されたあらゆる言語のクエリを対象にランタイムデータ系列をキャプチャできます。系列は列レベルまで取り込まれ、クエリに関連するノートブック、ワークフロー、ダッシュボードを含んでいます。詳細については、「Unity Catalog を使用したデータ系列のキャプチャと表示」を参照してください。

Catalog Explorer を使ってデータを検出する

Databricks Catalog Explorer は、スキーマ (データベース)、テーブル、ボリューム (表形式以外のデータ)、登録済み ML モデルなど、データと AI 資産を探索および管理するための UI と、資産のアクセス許可、データ所有者、外部の場所、資格情報を提供します。 Catalog Explorer の [分析情報] タブを使用すると、Unity Catalog に登録されているテーブルで頻繁に実行される最新のクエリとユーザーを表示できます。

Delta Sharing は、使用するコンピューティングプラットフォームに関係なく、他の組織や、自組織内の他のチームと安全にデータと AI 資産を共有するために Databricks によって開発されたオープンプロトコルです。

監査ログを構成する

Databricks では、Databricks ユーザーが実行したアクティビティの監査ログにアクセスできるので、企業は詳細な Databricks の使用パターンを監視できます。

システムテーブル (パブリックプレビュー) で Unity Catalog を使うと、監査ログ、課金対象の使用状況、系列など、アカウントのオペレーショナルデータに簡単にアクセスしてクエリを実行できます。

ID の構成

すべての優れたデータガバナンスのストーリーは、強力な ID Foundation から始まります。 Azure Databricks で ID を最適に構成する方法については、「ID のベストプラクティス」を参照してください。

レガシデータガバナンスソリューション

Azure Databricks には、次のレガシガバナンスモデルも用意されています。

テーブルアクセス制御は、ワークスペースの組み込みの Hive メタストアによって管理されているオブジェクトへのアクセスをプログラムで許可および取り消すことができるレガシデータガバナンスモデルです。 Databricks では、テーブルアクセス制御の代わりに Unity Catalog を使用することをお勧めします。 Unity Catalog は、アカウントの複数のワークスペースにまたがってデータアクセスを管理および監査するための中心的な場所を提供することで、データのセキュリティとガバナンスを簡素化します。
Azure Data Lake Storage の資格情報パススルー (レガシ) もレガシデータガバナンス機能であり、Azure Databricks へのログインに使用したものと同じ Microsoft Entra ID (旧称 Azure Active Directory) を使用して、Azure Databricks クラスターから Azure Storage に対する認証を自動的に行うことができます。 Databricks では、代わりに Unity Catalog を使用することをお勧めします。

Unity Catalog を使用したデータ ガバナンス