データ管理ランディング ゾーンは、クラウド規模の分析に不可欠です。 分析プラットフォーム全体のガバナンスを監視します。
データ管理ランディング ゾーンは、同じ標準の Azure ランディング ゾーン サービスを持つ別のサブスクリプションです。 クローラーを介してデータ ガバナンスを提供します。クローラーは、データ ランディング ゾーンのデータ レイクとポリグロット ストレージに接続します。 仮想ネットワーク ピアリングは、データ管理ランディング ゾーンをデータ ランディング ゾーンと接続サブスクリプションに接続します。
このアーキテクチャは出発点です。 データ管理ランディング ゾーンの実装を計画するときに、特定のビジネス要件と技術要件に合わせて変更できます。
注
Polyglot 永続化 とは、複数のデータ ストレージまたはデータ ストア テクノロジを使用して、データ型とそのストレージニーズをサポートする方法を指します。 Polyglot 永続化とは、アプリケーションが複数のコア データベースまたはストレージ テクノロジを使用できることを意味します。
重要
適切なガバナンスを持つ管理グループの下に、データ管理ランディング ゾーンを別のサブスクリプションとしてデプロイする必要があります。 その後、組織全体のガバナンスを制御できます。 Azure ランディング ゾーン アクセラレータでは、Azure ランディング ゾーンにアプローチする方法について説明します。
データ ガバナンス
Azure クラウド規模の分析フレームワークでは、Microsoft Purview を使用することをお勧めしています。 または、Microsoft 以外のソリューションをデプロイして、特定のデータ ガバナンス機能を管理することもできます。
アーキテクチャでは、次の主要な機能を検討してください。
- グローバル データ カタログ
- プライマリ データ管理
- データの共有とコントラクト
- API カタログ
- データ品質の管理
- データ モデリング リポジトリ
サブスクリプションへのデプロイが必要なパートナー データ ガバナンス製品がある場合は、データ管理ランディング ゾーン内のデータ ガバナンス リソース グループにデプロイします。
データ カタログ
データ カタログは、データ情報を一元的な場所に登録して維持し、組織で使用できるようにします。 これにより、異なるプロジェクト チームが冗長データを取り込む可能性が最小限に抑えられます。これにより、重複するデータ製品が防止されます。 データ ランディング ゾーン間で格納するデータ製品のメタデータを定義するデータ カタログ サービスを作成することをお勧めします。
クラウド規模の分析では、エンタープライズ データ ソースの登録、分類、データ品質の確保、高度なセキュリティで保護されたセルフサービス アクセスの提供を Microsoft Purview に依存しています。
Microsoft Purview は、各データ ランディング ゾーンと通信できるテナント ベースのサービスです。 マネージド仮想ネットワークが作成され、データ ランディング ゾーン リージョンにデプロイされます。 これらのマネージド仮想ネットワーク内の Azure マネージド仮想ネットワーク統合ランタイム (IR) は、使用可能な任意の Microsoft Purview リージョンにデプロイできます。 マネージド仮想ネットワーク IR は、プライベート エンドポイントを使用して、サポートされているデータ ソースに安全に接続してスキャンできます。 この方法は、データ統合プロセスの分離とセキュリティ保護に役立ちます。 詳細については、「 Microsoft Purview アカウントでマネージド仮想ネットワークを使用する」を参照してください。
Azure Databricks を使用する場合は、Microsoft Purview に加えて Azure Databricks Unity カタログ を使用することをお勧めします。 Unity Catalog は、Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供します。 詳細については、 Unity Catalogのベスト プラクティス を参照してください。
注
この記事では、ガバナンスに Microsoft Purview を使用することに重点を置いていますが、企業は、Alation、Okera、Collibra などの他の製品に投資している可能性があります。 これらのソリューションはサブスクリプション ベースです。 データ管理ランディング ゾーンにデプロイすることをお勧めします。 カスタム統合が必要な場合があります。
プライマリ データ管理
プライマリ データ管理コントロールは、データ管理ランディング ゾーンに存在します。 特定のデータ メッシュに関する考慮事項については、「 データ メッシュでのプライマリ データ管理」を参照してください。
多くの主要なデータ管理ソリューションは Microsoft Entra ID と完全に統合されており、データをセキュリティで保護し、さまざまなユーザー グループに異なるビューを提供するのに役立ちます。 詳細については、「 プライマリ データ管理システム」を参照してください。
データの共有とコントラクト
クラウド規模の分析では、Microsoft Entra エンタイトルメント管理または Microsoft Purview ポリシーを使用して、データ共有へのアクセスを制御します。 これらの機能に加えて、共有リポジトリとコントラクト リポジトリが必要になる場合があります。 このリポジトリは組織の機能であり、データ管理ランディング ゾーン内に配置する必要があります。 コントラクトでは、データの検証、モデル、およびセキュリティ ポリシーに関する情報を提供する必要があります。
API カタログ
データ アプリケーション チームは、組織全体で見つけにくいデータ アプリケーション用のさまざまな API を作成します。 この問題に対処するには、データ管理ランディング ゾーンに API カタログを配置します。
API カタログは、ドキュメントを標準化し、内部コラボレーションを容易にし、組織全体の消費、公開、ガバナンスの制御を強化します。
データ品質の管理
既存のデータ品質管理プラクティスを使用します。 分析および AI システム全体に問題が広がらないようにするには、データ ソースでデータ品質を管理します。
データに最も精通しているチームが品質管理を処理できるように、品質メトリックと検証をデータ プロセスに統合します。 このアプローチは、チームがデータ資産をより深く理解し、より適切に処理できるようにするのに役立ちます。 データ品質の信頼度を向上させるために、すべてのデータ製品にデータ系列を提供します。
詳細については、「 データ品質」を参照してください。
データ モデリング リポジトリ
データ コンシューマーが概念図を簡単に見つけられるように、データ管理ランディング ゾーン内にエンティティリレーションシップ モデルを一元的に格納します。 インジェストの前にデータ製品をモデル化するには、 ER/Studio や OrbusInfinity などのツールを使用します。
サービス レイヤー
組織では、クラウド規模の分析機能を強化するために、複数の自動化サービスを作成する場合があります。 これらのオートメーション サービスは、分析の状態に関する適合性とオンボーディングのソリューションを動作させます。
これらの自動化サービスを構築する場合、ユーザー インターフェイスはデータ マーケットプレースとオペレーション コンソールの両方として機能する必要があります。 このインターフェイスは、メタデータ標準などの基になるメタデータ ストアに依存 する必要があります。
データ マーケットプレースまたは運用コンソールでは、オンボード、メタデータ登録、セキュリティ プロビジョニング、データ ライフサイクル、監視を容易にするために、中間層のマイクロサービスを呼び出します。 メタデータ ストアをホストするようにサービス レイヤー リソース グループをプロビジョニングできます。
重要
次の Automation サービスは、購入できる実際の製品ではありません。 また、将来のリリースや更新プログラムを表すわけではありません。 自動化する項目を検討するには、次の一覧を使用します。
サービスの種類 | サービスの範囲 |
---|---|
データ ランディング ゾーンのプロビジョニング | このサービスで、新しいデータ ランディング ゾーンを作成します。 このサービスはあまり使用しませんが、エンド ツー エンドのオンボーディング ソリューションの完全性が保証されます。 詳細については、「 クラウド規模の分析をプロビジョニングする」を参照してください。 |
データ製品のオンボード | このサービスでは、オンボードされたテナントに関連するリソース グループの作成と修正を行います。 また、SKU のアップグレードとダウングレード、オンボードされたテナントまたはサービスのリソース グループのアクティブ化と非アクティブ化を行う機能も含まれています。 このサービスでは、DevOps 用の新しいデータ ランディング ゾーンも作成されます。 詳細については、「 クラウド規模の分析をプロビジョニングする」を参照してください。 |
データに依存しないインジェスト | このマイクロサービスは、データ ランディング ゾーンに取り込むための新しいデータ ソースを作成します。 このプロセスを管理するために、各データ ランディング ゾーンにある Azure Data Factory および Azure SQL Database メタストアと通信します。 詳細については、「 自動インジェスト フレームワークが Azure でクラウド規模の分析をサポートする方法」を参照してください。 |
メタデータ | このサービスは、プラットフォームのメタデータを公開して作成します。 詳細については、「 メタデータ標準」を参照してください。 |
アクセスのプロビジョニング | このサービスでは、サービス プリンシパル名またはユーザー プリンシパル名を使用して、アクセス パッケージ、アクセス ポリシー、および手動または自動の資産アクセス承認プロセスを作成します。 また、過去 90 日間にユーザーが送信したサブスクリプション要求 (または資産) の一覧を提供する API を公開することもできます。 詳細については、「 データ アクセス管理」を参照してください。 |
データのライフサイクル | このサービスは、メタデータに基づいてデータのライフサイクルを維持するのに役立ちます。 このメンテナンスには、コールド ストレージへのデータの移動や古いレコードの削除が含まれる場合があります。 詳細については、「 データ ライフサイクル管理」を参照してください。 |
データ ドメインのオンボード | このサービスは、データ メッシュにのみ適用されます。 このサービスは、新しいドメイン メタデータをキャプチャし、必要に応じて新しいドメインをオンボードします。 また、マイクロサービスに組み込むドメインまたはサービス行を作成、更新、アクティブ化、非アクティブ化することもできます。 詳細については、「 クラウド規模の分析をプロビジョニングする」を参照してください。 |
Azure Container Registry(アジュール コンテナ レジストリ)
データ管理ランディング ゾーンは、Azure Container Registry インスタンスをホストします。 データ プラットフォーム操作では、Container Registry を使用して、データ アプリケーション チームが使用するデータ サイエンス プロジェクト用の標準コンテナーをデプロイできます。