次の方法で共有


Azure Databricks を使用したデータ ガバナンス

このページでは、Azure Databricks で Unity カタログを使用してデータを管理する方法の概要について説明します。

このページでは、データのガバナンスに焦点を当てています。 次のような関連するセキュリティ トピックについては、 セキュリティとコンプライアンスに関する記事を参照してください。

  • 認証とアクセス制御
  • ネットワーク構成
  • データ セキュリティと暗号化
  • プライバシーとコンプライアンス

Unity Catalog とは

Unity Catalog は、機械学習モデルなどの AI 資産のガバナンスと共に、複数のプラットフォーム上の複数の形式で表形式および非構造化データに対するきめ細かいアクセス制御を提供する一元化されたデータ カタログです。 また、データの検出、使用状況の追跡、系列のキャプチャ、データ品質の監視に必要なツールも含まれています。

Unity カタログは オープンソース であり、複数のプラットフォームをサポートしています。 これは Azure Databricks に深く統合されています。

Unity Catalog とは」を参照してください。

Unity カタログ データ ガバナンス モデル

Unity カタログを使用したデータ ガバナンスには、次のものが用意されています。

  • データの統一: プラットフォーム間のすべてのデータと AI 資産を一元的に表示し、重複とスプロールを減らします。
  • データ アクセス制御: 適切なユーザーに対してのみ、データに簡単にアクセスできるようにするツール。
  • データの検出可能性: 必要なデータを簡単に見つけられるようにするツール。
  • データ品質: ライフサイクル全体を通じて、正確で完全で一貫性があり、セキュリティで保護されたデータを確保するためのツール。
  • データのコラボレーションと共有: 組織内だけでなく、組織とプラットフォームの境界を越えて安全にデータを共有する機能。
  • 監査: データを使用するユーザーとその方法をキャプチャするツール。

このページでは、Azure Databricks の Unity カタログを使用して、組織がこれらのニーズを満たす方法について説明します。

データ アクセス制御

ユーザーが必要なデータにのみアクセスできるように、Unity Catalog には階層的な特権モデルが用意されています。これにより、ユーザー、グループ、サービス プリンシパルに、アカウント レベルからテーブルの行と列まで、データと AI 資産へのアクセス権を付与できます。 専用の Unity カタログ ストレージに格納されている資産や、クラウド ストレージやデータベース システムなどの他のプラットフォームに格納されている資産へのアクセスを制御できます。重要なのは、Unity カタログは、Azure Databricks 内のどこからでも、すべてのデータへの潜在的なアクセスをユーザーに提供し、Unity カタログがアクセスを制御し、データの使用状況を追跡することです。

課題 説明
特権の管理 Unity カタログが管理するセキュリティ保護可能なオブジェクトと、それらのオブジェクトへのアクセスを制御する方法について説明します。
属性ベースのアクセス制御 (ABAC) を管理する Unity カタログで ABAC を使用してデータへのアクセスを制御する方法を学びます。
ID の管理 Unity カタログのコンテキストで ID を管理する方法について説明します。
きめ細かいアクセス制御 行フィルターと列マスクを使用してテーブル データへのアクセスを制御する方法について説明します。
外部ストレージとデータ プラットフォームへのアクセスを管理する Unity カタログを使用して、クラウド ストレージ、外部データ プラットフォーム、および外部の非データ サービスへのアクセスを制御する方法について説明します。
外部プラットフォームからのアクセスを管理する Apache Iceberg またはオープンソースの Unity カタログ API を使用する外部プラットフォームからのデータへのアクセスを Unity Catalog で管理する方法について説明します。

データの検出可能性

Azure Databricks と Unity カタログには、ユーザーが必要なデータを見つけるのに役立つ次のツールが用意されています。

特徴 説明
カタログ エクスプローラー 資産名とメタデータ (コメントやタグなど) を使用して、データと AI 資産を参照して検索します。
カタログ ブラウザー ノートブックおよび SQL クエリ エディターに組み込まれているブラウザーを使用して、データと AI 資産を検索します。 新しい SQL エディターでの Databricks ノートブックとファイル エディターの移動クエリの記述とデータの探索に関するページを参照してください。
AI によって生成されたコメント 検出可能性を支援するために、データと AI 資産のドキュメントを自動的に生成します。
テーブル分析情報 カタログ エクスプローラーに組み込まれている UI を使用して、Unity カタログ内の任意のテーブルの最も頻繁なユーザーとクエリを表示します。
データ系列 データが組織を通過する方法をキャプチャして視覚化します。
特徴とモデルの系列については、「 特徴ガバナンスと系列」を参照してください。
エンティティ関係図 (ERD) 外部キーが定義されているテーブルのリレーションシップを表示します。

データの 検出も参照してください。

データ品質の監視

データの品質とデータの整合性を確保するためのツールは、Delta Lake、Apache Spark、Azure Databricks に深く統合されています。 これらの詳細については、Azure Databricks のドキュメント全体を通じて学習できます。

Unity カタログでは、次のものが追加されます。

特徴 説明
レイクハウス監視 アカウント内のすべてのテーブルのデータの統計プロパティと品質をキャプチャするデータ監視ツール。 これを使用して、モデルの入力や予測を含む、推論テーブルを監視することで、機械学習モデルとモデルサービス エンドポイントのパフォーマンスを追跡することもできます。
認定済みおよび非推奨のシステム タグ カタログ、スキーマ、テーブルなどのセキュリティ保護可能なオブジェクトに、データ品質またはライフサイクルの状態を示すラベルを付けます。 これらのシステム タグは、組織がガバナンスを適用し、データの検出可能性を向上させ、分析と AI アプリケーションの信頼を高めるのに役立ちます。

データのコラボレーションと共有

Unity カタログを使用すると、ユーザーは同じリージョン内のすべてのアカウントのワークスペースで同じデータで共同作業を行うことができます。 ワークスペースリージョン間、組織全体、およびプラットフォーム間でコラボレーションが必要な場合、Unity Catalog は次の共有ツールの基盤を提供します。

特徴 説明
デルタ・シェアリング Azure Databricks のデータと AI 資産を、Databricks を使用するかどうかにかかわらず、組織外のユーザーと共有できるセキュリティで保護されたデータ共有プラットフォームです。
クリーン ルーム Databricks と Databricks 以外のプラットフォーム上の複数の参加者が、基になるデータを相互に共有することなく、プロジェクトで共同作業できる Databricks で管理される環境。
Databricks Marketplace データと AI 製品を交換するためのオープン フォーラム。 また、プライベート データ交換も提供します。

監査

監査ログ には、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細がキャプチャされます。 Unity カタログでは、アカウントの監査ログにアクセスしてクエリを実行する最も簡単な方法である システム テーブルが追加されます。

システム テーブルを使用 した診断ログのリファレンスアカウント アクティビティの監視を参照してください。

従来の Azure Databricks データ ガバナンス ツール

Azure Databricks には、これらのレガシ ガバナンス機能も用意されています。 Databricks では、代わりに Unity カタログを使用することをお勧めします。

特徴 説明
テーブルのアクセス制御 ワークスペースの組み込みの Hive メタストアによって管理されるオブジェクトへのアクセスをプログラムで許可および取り消すことができるレガシ データ ガバナンス モデル。
Azure Data Lake Storage 資格情報パススルー Azure Databricks へのログインに使用するのと同じ Microsoft Entra ID ID を使用して、Azure Databricks クラスターから Azure Storage に対して自動的に認証できる従来のデータ ガバナンス機能。

次のステップ