次の方法で共有


Azure Databricks を使用したデータ ガバナンス

データ ガバナンス は、ポリシー、プロセス、ロール、および技術的な制御のフレームワークであり、組織のデータがセキュリティで保護され、信頼でき、ライフサイクル全体にわたって責任を持って使用されることを保証します。 効果的なデータ ガバナンスを使用すると、データの品質を維持し、機密情報を保護し、規制要件を満たし、データ資産の価値を最大化することができます。

データ ガバナンスの主なコンポーネントは次のとおりです。

  • アクセス制御とセキュリティ: 適切な使用を有効にしながら、承認されていないアクセスからデータを保護するためのきめ細かいアクセス許可とセキュリティ対策を実装します。
  • データ系列と可観測性: データフローと変換を追跡して、データの起源、依存関係、および使用パターンを理解します。
  • データ品質管理: 意思決定と分析のために、データが正確、完全、一貫性、信頼性を確保します。
  • メタデータ管理: データ資産に関する情報をキャプチャして維持し、検出可能性と理解を向上させます。
  • コンプライアンスの適用: データのプライバシー、保持、および使用に関する規制要件と組織のポリシーを満たします。

このページでは、Azure Databricks の Unity カタログを使用したデータのガバナンスについて説明します。 認証、ネットワーク構成、データ暗号化、プライバシー コンプライアンスなどの関連するセキュリティ トピックについては、セキュリティとコンプライアンスとコンプライアンスの概要に関するページを参照してください。

Unity カタログ データ ガバナンス モデル

Unity Catalog は、構造化データと非構造化データの両方のガバナンスを複数の形式で提供する一元化されたデータ カタログです。 機械学習モデルなどの AI 資産のきめ細かいアクセス制御とガバナンスを提供します。 Unity カタログは オープンソース であり、複数のプラットフォームをサポートしています。 これは Azure Databricks に深く統合されています。

Unity カタログは、以下を提供する完全なデータ ガバナンス ソリューションです。

  • データの統一: プラットフォーム間のすべてのデータと AI 資産を一元的に表示し、重複とスプロールを減らします。
  • データ アクセス制御: 適切なユーザーのみがデータにアクセスできるようにするツール。
  • データの検出可能性: 必要なデータを簡単に見つけられるようにするツール。
  • データ品質: ライフサイクル全体を通じて、正確で完全で一貫性があり、セキュリティで保護されたデータを確保するためのツール。
  • データのコラボレーションと共有: 組織内だけでなく、組織とプラットフォームの境界を越えてデータを安全に共有するためのツール。
  • 監査: データを使用するユーザーとその方法をキャプチャするツール。

このページでは、Azure Databricks の Unity カタログを使用して、組織がこれらのニーズを満たす方法について説明します。

データ アクセス制御

ユーザーが必要なデータにのみアクセスできるように、Unity Catalog には階層的な特権モデルが用意されています。これにより、ユーザー、グループ、サービス プリンシパルに、アカウント レベルからテーブルの行と列まで、データと AI 資産へのアクセス権を付与できます。 専用の Unity カタログ ストレージに格納されている資産や、クラウド ストレージやデータベース システムなどの他のプラットフォームに格納されている資産へのアクセスを制御できます。重要なのは、Unity カタログは、Azure Databricks 内のどこからでも、すべてのデータへの潜在的なアクセスをユーザーに提供し、Unity カタログがアクセスを制御し、データの使用状況を追跡することです。

課題 説明
特権の管理 Unity カタログが管理するセキュリティ保護可能なオブジェクトと、それらのオブジェクトへのアクセスを制御する方法について説明します。
属性ベースのアクセス制御 (ABAC) を管理する Unity カタログで ABAC を使用してデータへのアクセスを制御する方法について説明します。
ID の管理 Unity カタログのコンテキストで ID を管理する方法について説明します。
きめ細かいアクセス制御 行フィルターと列マスクを使用してテーブル データへのアクセスを制御する方法について説明します。
外部ストレージとデータ プラットフォームへのアクセスを管理する Unity カタログを使用して、クラウド ストレージ、外部データ プラットフォーム、および外部の非データ サービスへのアクセスを制御する方法について説明します。
外部プラットフォームからのアクセスを管理する Apache Iceberg またはオープンソースの Unity カタログ API を使用する外部プラットフォームからのデータへのアクセスを Unity Catalog で管理する方法について説明します。

データの検出可能性

Azure Databricks と Unity カタログには、ユーザーが必要なデータを見つけるのに役立つ次のツールが用意されています。

特徴 説明
カタログ エクスプローラー 資産名とメタデータ (コメントやタグなど) を使用して、データと AI 資産を参照して検索します。
カタログ ブラウザー ノートブックおよび SQL クエリ エディターに組み込まれているブラウザーを使用して、データと AI 資産を検索します。 新しい SQL エディターでの Databricks ノートブックとファイル エディターの移動クエリの記述とデータの探索に関するページを参照してください。
AI によって生成されたコメント 検出可能性を支援するために、データと AI 資産のドキュメントを自動的に生成します。
テーブル分析情報 カタログ エクスプローラーに組み込まれている UI を使用して、Unity カタログ内の任意のテーブルの最も頻繁なユーザーとクエリを表示します。
データ系列 データが組織を通過する方法をキャプチャして視覚化します。
特徴とモデルの系列については、「 特徴ガバナンスと系列」を参照してください。
エンティティ関係図 (ERD) 外部キーが定義されているテーブルのリレーションシップを表示します。

データの 検出も参照してください。

データ品質の監視

データの品質とデータの整合性を確保するためのツールは、Delta Lake、Apache Spark、Azure Databricks に深く統合されています。 これらの詳細については、Azure Databricks のドキュメント全体を通じて学習できます。

Unity カタログでは、次のものが追加されます。

特徴 説明
データ品質の監視 データ品質の監視は、Unity カタログ内のすべてのデータ資産の品質を確保するのに役立ちます。 これには、カタログまたはスキーマ内のすべてのテーブルのデータ品質を監視するための異常検出と、個々のテーブルのデータの統計プロパティと品質を監視するためのデータ プロファイルが含まれます。
認定済みおよび非推奨のシステム タグ (プライベート プレビュー) カタログ、スキーマ、テーブルなどのセキュリティ保護可能なオブジェクトに、データ品質またはライフサイクルの状態を示すラベルを付けます。 これらのシステム タグは、組織がガバナンスを適用し、データの検出可能性を向上させ、分析と AI アプリケーションの信頼を高めるのに役立ちます。

データのコラボレーションと共有

Unity カタログを使用すると、ユーザーは同じリージョン内のすべてのアカウントのワークスペースで同じデータで共同作業を行うことができます。 ワークスペースリージョン間、組織全体、およびプラットフォーム間でコラボレーションが必要な場合、Unity Catalog は次の共有ツールの基盤を提供します。

特徴 説明
デルタ・シェアリング Azure Databricks のデータと AI 資産を、Databricks を使用するかどうかにかかわらず、組織外のユーザーと共有できるセキュリティで保護されたデータ共有プラットフォームです。
クリーン ルーム Databricks と Databricks 以外のプラットフォーム上の複数の参加者が、基になるデータを相互に共有することなく、プロジェクトで共同作業できる Databricks で管理される環境。
Databricks Marketplace データと AI 製品を交換するためのオープン フォーラム。 また、プライベート データ交換も提供します。

監査

監査ログ には、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細がキャプチャされます。 Unity カタログでは、アカウントの監査ログにアクセスしてクエリを実行する最も簡単な方法である システム テーブルが追加されます。

システム テーブルを使用 した診断ログのリファレンスアカウント アクティビティの監視を参照してください。

従来の Azure Databricks データ ガバナンス ツール

Azure Databricks には、これらのレガシ ガバナンス機能も用意されています。 Databricks では、代わりに Unity カタログを使用することをお勧めします。

特徴 説明
テーブルのアクセス制御 ワークスペースの組み込みの Hive メタストアによって管理されるオブジェクトへのアクセスをプログラムで許可および取り消すことができるレガシ データ ガバナンス モデル。
Azure Data Lake Storage 資格情報パススルー Azure Databricks へのログインに使用するのと同じ Microsoft Entra ID ID を使用して、Azure Databricks クラスターから Azure Storage に対して自動的に認証できる従来のデータ ガバナンス機能。

次のステップ