データ ガバナンスのベスト プラクティス

この記事では、データ ガバナンスの必要性について説明し、組織全体でこれらの手法を実装するために使用できるベスト プラクティスと戦略を共有します。

データ ガバナンスはなぜ重要なのか。

データ ガバナンスとは、確実にデータを有用に活用し、価値をもたらし、ビジネス戦略をサポートするための監視です。 データ ガバナンスには、組織内のデータ資産を安全に管理するために実装されるポリシーとプラクティスが含まれています。 データの量と複雑さが増すにつれ、中核となるビジネス成果を確保するために、データ ガバナンスに注目する組織がますます増えています。

  • 分析と機械学習の基盤としての一貫した高品質のデータ。
  • 分析情報を得る時間の短縮。
  • データの民主化 (つまり、組織内の全員がデータドリブンの意思決定を行えるようにすること)。
  • HIPAA、FedRAMP、GDPR、CCPA などの業界規制に対するリスクとコンプライアンスのサポート。
  • コストの最適化。たとえば、ユーザーが大規模なクラスターを起動できないようにすることや、高コストの GPU インスタンスを使う場合のガード レールを作成することなどです。

優れたデータ ガバナンス ソリューションとは

通常、データドリブン型の会社は、分析のためのデータ アーキテクチャをレイクハウス上に構築します。 データ レイクハウスとは、効率的かつ安全な Data Engineering、機械学習、データ ウェアハウス、ビジネス インテリジェンスを、データ レイクに格納された膨大な量のデータに対して直接可能にするアーキテクチャです。 データ レイクハウスのデータ ガバナンスの主要な機能は次のとおりです。

  • 統合カタログ: 統合カタログには、各データ オブジェクトのメタデータに加え、すべてのデータ、ML モデル、分析の成果物が格納されます。 統合カタログには、既存の Hive メタストアなど、他のカタログのデータも組み込まれています。
  • 統合データ アクセス制御: すべてのデータ資産とすべてのクラウドにわたる 1 つの統合されたアクセス許可モデル。 これには、個人を特定できる情報 (PII) に対する属性ベース アクセス制御 (ABAC) が含まれます。
  • データの分離: データの分離は、アクセスと監査を一元的に管理する機能を損なうことなく、複数のレベル (環境、ストレージの場所、細分性を高めたデータ オブジェクト) で実現できます。
  • データ監査: データ アクセスは、アカウンタビリティを促進するアラートと監視の機能を使って一元的に監査されます。
  • データ品質管理: 品質管理、テスト、監視、適用が組み込まれた堅牢なデータ品質管理により、ダウンストリームの BI、分析、機械学習ワークロードに正確かつ有用なデータを使用できるようにします。
  • データ系列: レイクハウスのソースから消費までのデータ フローをエンドツーエンドで視覚化するデータ系列。
  • データ検出: データ サイエンティスト、データ アナリスト、データ エンジニアが関連データを迅速に検出して参照し、価値を実現するまでの時間を短縮できるようにする簡単なデータ検出。
  • データ共有: クラウドとプラットフォーム間でデータを共有できます。

データ ガバナンスと Azure Databricks

Azure Databricks は、Unity Catalog と Delta Sharing を使って、データと AI の一元的なガバナンスを実現しています。

  • Unity Catalog は、Databricks Lakehouse 上のデータと AI に対する粒度の細かいガバナンス ソリューションです。 データ アクセスの管理や監査を行うための一元的な場所を提供することで、データのセキュリティとガバナンスを簡素化するのに役立ちます。
  • Delta Sharing は、使用するコンピューティング プラットフォームに関係なく、他の組織や、自組織内の他のチームと安全にデータを共有するために Databricks によって開発されたオープン プロトコルです。

Unity Catalog と Delta Sharing の採用に関するベスト プラクティスについては、「Unity Catalog のベスト プラクティス」を参照してください。

レガシ データ ガバナンス ソリューション

  • テーブル アクセス制御は、ワークスペースの組み込みの Hive メタストアによって管理されているオブジェクトへのアクセスをプログラムで許可および取り消すことができるレガシ データ ガバナンス モデルです。 Databricks では、テーブル アクセス制御の代わりに Unity Catalog を使用することをお勧めします。 Unity Catalog は、アカウントの複数のワークスペースにまたがってデータ アクセスを管理および監査するための中心的な場所を提供することで、データのセキュリティとガバナンスを簡素化します。

  • Azure Data Lake Storage の資格情報パススルー (レガシ) もレガシ データ ガバナンス機能であり、Azure Databricks へのログインに使用したものと同じ Azure Active Directory ID を使用して、Azure Databricks クラスターから Azure Storage に対する認証を自動的に行うことができます。 Databricks では、代わりに Unity Catalog を使用することをお勧めします。

ID の構成

すべての優れたデータ ガバナンスのストーリーは、強力な ID Foundation から始まります。 Azure Databricks で ID を最適に構成する方法については、「ID のベスト プラクティス」を参照してください。

詳細情報

組織のニーズを満たす包括的なデータ ガバナンス ソリューションを構築するのに役立ついくつかのリソースを以下に示します。

  • Unity Catalog の使用の開始」。組織用に Unity Catalog を設定する詳細な手順について説明します。
  • Databricks のセキュリティとトラスト センター」。Databricks Lakehouse Platform のすべてのレイヤーにセキュリティを組み込む方法について説明します。
  • シークレットの管理」。Databricks のシークレットを使って資格情報を格納し、ノートブックとジョブで参照する方法について説明します。 シークレットをハード コーディングしたり、プレーンテキストとして保存したりしないでください。