次の方法で共有


データ ガバナンスのベスト プラクティス

この記事では、データ ガバナンスのベスト プラクティスについて、以下のセクションで示すアーキテクチャの原則ごとにまとめて説明します。

1.データ管理を統合する

すべてのデータ資産のメタデータを 1 か所で管理する

ベスト プラクティスとして、1 つの Unity Catalog を使用して、1 つのアカウントでレイクハウスを実行します。 Unity Catalog 内のオブジェクトの最上位レベルのコンテナーはメタストアです。 このコンテナーにデータ資産 (テーブルやビューなど) と、それらへのアクセスを制御するアクセス許可を保存します。 待機時間の問題を回避するために、クラウド リージョンごとに 1 つのメタストアを使用し、リージョンをまたいでメタストアにアクセスしないでください。

メタストアは、3 レベルの名前空間を提供します。

Databricks では、カタログを使って組織の情報アーキテクチャ全体で分離を実現することをお勧めします。 多くの場合、これは、ソフトウェア開発環境のスコープ、チーム、またはビジネス ユニットに対応したカタログを使用できることを意味します。

データ系列を追跡してデータの可視性を向上させる

データ系列は、データ リーダーが組織のデータの可視性を高めてデータの理解を深めるのに役立つ強力なツールです。 データ系列は、ソースから分析情報へのデータの変換と絞り込みを記述します。 系列には、データ セットのソース、データの作成に使用された他のデータ セット、誰がいつデータを作成したか、どのような変換が行われたか、他のどのデータ セットがそのデータを使用しているか、その他多くのイベントや属性など、ライフサイクル中のデータに関連するすべての重要なメタデータとイベントのキャプチャが含まれます。 データ系列は、多くのデータ関連のユース ケースに使用できます。

  • コンプライアンスと監査への対応性: データ系列は、組織がテーブルやフィールドのソースを追跡するのに役立ちます。 これは、一般データ保護規則 (GDPR)、カリフォルニア消費者プライバシー法 (CCPA)、医療保険の相互運用性と責任に関する法律 (HIPAA)、バーゼル銀行監督委員会 (BCBS) 239、およびサーベンス・オクスリー法 (SOX) など、多くのコンプライアンス規制の要件を満たす上で重要です。
  • 影響分析/変更管理: データは、ソースからビジネスに対応した最終的なテーブルに至るまで複数の変換を経ます。 データ変更がダウンストリーム ユーザーに及ぼす潜在的な影響を理解することは、リスク管理の観点から重要です。 Unity Catalog によって収集されたデータ系列を使用して、この影響を簡単に判断できます。
  • データ品質保証: データ セットがどこから来たものか、どのような変換が適用されたかを理解することで、データ サイエンティストやデータ アナリストは従来よりはるかに明確なコンテキストを把握できるため、より適切で正確な分析情報を得ることができます。
  • デバッグと診断: 予期しない結果が発生した場合、データ系列は、データ チームがソースまでさかのぼってエラーをトレースすることで根本原因分析を実行するのに役立ちます。 これにより、デバッグ時間が大幅に短縮されます。

Unity Catalog は、Azure Databricks に対して実行されたクエリを対象にランタイム データ系列をキャプチャできます。 系列はすべての言語でサポートされ、列レベルまでキャプチャされます。 系列データには、クエリに関連するノートブック、ワークフロー、ダッシュボードが含まれます。 系列はカタログ エクスプローラーでほぼリアルタイムで視覚化でき、システム テーブル (推奨) または Databricks Data Lineage REST API を使用してアクセスできます。

簡単なデータ検出により、データ サイエンティスト、データ アナリスト、データ エンジニアは関連データを迅速に検出して参照し、価値実現までの時間を短縮することができます。 Databricks Catalog Explorer には、データ、スキーマ (データベース)、テーブル、アクセス許可、データ所有者、外部の場所、資格情報を探索および管理するための UI が用意されています。 さらに、Catalog Explorer の [分析情報] タブを使用して、Unity Catalog に登録されている任意のテーブルの最近、最も頻繁なクエリとユーザーを表示できます。

2.データ セキュリティを統合する

アクセス制御を一元化する

Databricks データ インテリジェンス プラットフォームにより、どのグループまたは個人がどのデータにアクセスできるかを記述するメカニズムである、データ アクセス制御のためのメソッドが提供されます。 これは、各個人がアクセスできるすべてのレコードの定義に至るまでを網羅した非常に細かく具体的なポリシー ステートメントです。 あるいは、すべての経理ユーザーにすべての経理データを表示するなど、非常に表現力豊かで、幅広いメカニズムである場合もあります。

Unity Catalog は、ファイル、テーブル、ビューのアクセス制御を一元化します。 Unity Catalog 内のセキュリティ保護が可能なオブジェクトのそれぞれに所有者が存在します。 オブジェクトの所有者は、オブジェクトに対するすべての権限に加えて、セキュリティ保護可能なオブジェクトに対する権限を他のプリンシパルに付与するためのアクセス許可も持っています。 Unity Catalog を使用すると、 権限を管理したり、SQL DDL ステートメントを使用してアクセス制御を構成したりできます。

Unity Catalog は、行と列へのアクセスを、それらに対するクエリを許可されているユーザーとグループに制限できるように、動的ビューを使用してきめ細かいアクセス制御を行います。 「動的ビューを作成する」を参照してください。

詳細については、「セキュリティ、コンプライアンスおよびプライバシー - 最小限の特権を使用した ID およびアクセスの管理」を参照してください。

監査ログを構成する

Databricks では、Databricks ユーザーが実行したアクティビティの監査ログにアクセスできるので、企業は詳細な Databricks の使用パターンを監視できます。 ログには、ワークスペース レベルのイベントを含むワークスペース レベルの監査ログと、アカウント レベルのイベントを含むアカウント レベルの監査ログの 2 種類があります。

Unity Catalog イベントを監査する

Unity Catalog は、メタストアに対して実行されたアクションの監査ログをキャプチャします。 これにより、管理者は、特定のデータセットにアクセスしたユーザーと、実行したアクションに関する詳細にアクセスできます。

データ共有イベントを監査する

Delta Sharing を使用した安全な共有のために、Azure Databricks は、次の場合などに Delta Sharing イベントを監視するための監査ログを提供します。

  • 他のユーザーが共有または受信者を作成、変更、更新、または削除する場合。
  • 受信者がアクティブ化リンクにアクセスして、資格情報をダウンロードする場合。
  • 受信者が共有テーブル内の共有またはデータにアクセスする場合。
  • 受信者の資格情報がローテーションまたは期限切れになった場合。

3.データ品質を管理する

Databricks データ インテリジェンス プラットフォームは、組み込みの品質管理、テスト、監視、適用を備えた堅牢なデータ品質管理を提供し、ダウンストリーム BI、分析、機械学習のワークロードで正確で有用なデータを利用できるようにします。

信頼性 - データ品質を管理する」をご参照ください。

4.データを安全かつリアルタイムに共有する

オープン Delta Sharing プロトコルを使用してパートナーとデータを共有する

Delta Sharing は、レイクハウスから任意のコンピューティング プラットフォームにライブ データを安全に共有するためのオープン ソリューションを提供します。 受信者は、Databricks プラットフォーム上にも、同じクラウド上にも、いずれのクラウド上にも存在する必要がありません。 Delta Sharing は、Unity Catalog とネイティブに統合されているため、組織は、セキュリティとコンプライアンスの要件を満たしながら、企業全体の共有データを一元的に管理および監査し、自信を持ってデータ資産を共有することができます。

データ プロバイダーは、別のシステムにデータをレプリケートまたは移動することなく、クラウド ストレージ内のデータが配置されている場所からライブ データを共有できます。 このアプローチでは、データプロバイダーがクラウド、地域、またはデータ プラットフォームをまたいで各データ コンシューマーにデータを複数回レプリケートする必要がないため、データ共有の運用コストを削減できます。

Databricks ユーザー間で Databricks 間の Delta Sharing を使用する

自分の Unity Catalog メタストアにアクセスできないユーザーとデータを共有する場合は、受信者が Unity Catalog 用に有効になっている Databricks ワークスペースへのアクセス権を持つ場合に限り、Databricks 間 Delta Sharing を使用できます。 Databricks 間の共有により、クラウド リージョンをまたぎ、クラウド プロバイダーをまたいで、他の Databricks アカウントのユーザーとデータを共有できます。 これは、独自の Databricks アカウント内のさまざまな Unity Catalog メタストア間でデータを安全に共有する優れた方法です。