クラウド規模の分析のデータ管理ランディングゾーンの概要

[アーティクル]
04/06/2023

データ管理ランディングゾーンは管理機能であり、クラウド規模の分析の中核です。これは分析プラットフォームのガバナンスを担当します。

データ管理ランディングゾーンは、Azure ランディングゾーンの同一の標準サービスを備えた別個のサブスクリプションです。これを使用すると、データランディングゾーン内のデータレイクやポリグロットストレージに接続するクローラーによる、お使いのデータのデータガバナンスが可能になります。データ管理ランディングゾーンは、仮想ネットワークピアリングによって、データランディングゾーンと接続サブスクリプションに接続されます。

このアーキテクチャを開始点として使用します。データ管理ランディングゾーンの実装を計画する際は、Visio ファイルをダウンロードし、特定のビジネスおよび技術要件に合わせて変更してください。

Note

"ポリグロットな永続化" はストレージ用語であり、さまざまなデータ型とそれらのストレージニーズをサポートするために、異なるデータストレージおよびデータストアテクノロジを選択することを表わしています。基本的に、ポリグロットな永続化は、1 つのアプリケーションで、中核となるデータベースやストレージのテクノロジを複数使用できるという概念です。

重要

データ管理ランディングゾーンは、適切なガバナンスを持つ管理グループの下に、独立したサブスクリプションとしてデプロイする必要があります。その後、組織全体にわたるガバナンスを制御できます。 Azure ランディングゾーンアクセラレータでは、Azure ランディングゾーンにどのように取り組む必要があるかが示されています。

データカタログ

リソースグループ: governance-rg

データカタログでは、データ情報を一元的に登録して管理し、それを組織で使用できるようにします。これによって企業では、異なるプロジェクトチームによる冗長なデータインジェストによって発生する、重複したデータ製品が確実に回避されます。

データランディングゾーン全体にわたって格納されるデータ製品のメタデータを定義するため、データカタログサービスをプロビジョニングすることをお勧めします。

クラウド規模の分析は、Microsoft Purview に依存して以下のサービスを提供します。

登録のシステム
エンタープライズデータソースの検出
データ分類エンジン
ポリシーストア
データ情報の登録と読み取りのための API
コンプライアンスダッシュボードハブ

データカタログは、データ管理ランディングゾーンの一部であるため、仮想ネットワーク (VNet) ピアリングとセルフホステッド統合ランタイムを介して、各データランディングゾーンと通信できます。オンプレミスストアおよびその他のパブリッククラウド内のデータセットの検出は、より多くのセルフホステッド統合ランタイムをデプロイすることによって実現されます。

Note

このドキュメントは主に、データカタログ機能とデータ分類のために Microsoft Purview を使用することに焦点を当てていますが、企業は Alation、Okera、Collibra などの他の製品に投資している場合があります。これに該当する場合は、お使いのベンダーと協力して、データ管理ランディングゾーンについて説明されている原則に可能な限り近づけて適用してください。何らかのカスタム統合が必要になる可能性があることにご注意ください。

詳細については、「データカタログ」と、クラウド規模の分析のための Microsoft Purview デプロイのベストプラクティスに関するページを参照してください。

データ品質の管理

リソースグループ: governance-rg2

現在のソリューションを使い続けます。

分析と AI の資産全体にわたって品質の問題がレプリケートされないように、データソースにできるだけ近いデータ品質を管理する必要があります。品質のメトリックと検証をデータ統合に移動すると、品質プロセスは、データに最も近いチームに配置されます。これらのチームは、データ資産について最も深く理解しています。

データ系列でもデータ品質の信頼性が得られるため、すべてのデータ製品および製品にそれを提供する必要があります。

データ品質の管理の詳細については、「データ品質」を参照してください。

データモデリングリポジトリ

リソースグループ: governance-rg2

エンティティリレーションシップモデルは、データ管理ランディングゾーン内の中央の場所にキャプチャして格納する必要があります。これによってデータコンシューマーに、概念図を見つけるための単一の場所が提供されます。

多くのお客様は、インジェストの前に ER Studio や iServer を使用してデータ製品をモデル化しています。

マスターデータの管理

リソースグループ: governance-rg2

マスターデータ管理コントロールは、データ管理ランディングゾーン内に置かれています。データメッシュでのマスターデータ管理には、データメッシュに関して特に注意する必要のある具体的な考慮事項が含まれています。

多くのマスターデータ管理ソリューションは、Microsoft Entra ID と完全に統合されます。この統合により、データをセキュリティで保護し、さまざまなユーザーグループに異なるビューを提供できます。

詳細については、マスターデータ管理システムに関するページを参照してください。

API カタログ

リソースグループ: governance-rg2

データアプリケーションチームは、おそらく、データアプリケーションのためにさまざまな API を作成することになります。これらの API を組織全体にわたって検出するのは困難な場合があります。データ管理ランディングゾーンに API カタログを配置すると、この問題を解決できます。

API カタログは、ドキュメントを標準化するのに役立てることができ、API に関する内部コラボレーションの場所が提供されることになります。また、組織全体にわたって消費、発行、ガバナンスの制御を促進することもできます。

リソースグループ: governance-rg2

クラウド規模の分析では、Microsoft Entra エンタイトルメント管理または Microsoft Purview ポリシーを使用して、データ共有へのアクセスを制御します。それでもなお、共有とコントラクトのリポジトリが必要になる場合があります。このリポジトリは組織の機能であり、データ管理ランディングゾーン内に配置する必要があります。

コントラクトでは、データの検証、モデル、セキュリティポリシーに関する情報を提供する必要があります。

詳細については、「データコントラクト」を参照してください

Azure Container Registry

リソースグループ: containers-rg

Azure Container Registry は、データ管理ランディングゾーンによってホストされます。 Azure Container Registry を使用すると、データプラットフォーム操作で、データアプリケーションチームが使用する標準コンテナーを、データサイエンスプロジェクトで使用するためにデプロイできます。

Azure Synapse の Private Link ハブ

リソースグループ: synapse-link-rg

Azure Synapse Analytics の Private Link ハブは、セキュリティで保護されたネットワークと Azure Synapse Studio の Web エクスペリエンスを接続する Azure リソースです。クラウド規模の分析では、これらのハブからのプライベートリンクを使用して、Azure Virtual Network を Azure Synapse Studio に安全に接続します。

プライベートリンクを使用して Azure Synapse Studio に接続するには、2 つのステップがあります。

Private Link ハブリソースを作成します。
お使いの Azure Virtual Network からその Private Link ハブへのプライベートエンドポイントを作成します。

その後は、プライベートエンドポイントを使用して、Azure Synapse Studio と安全に通信できます。これらのプライベートエンドポイントは、オンプレミスソリューションまたは Azure プライベート DNS のいずれかを使用して、お使いの DNS ソリューションと統合します。

詳細については、プライベートリンクを使用した Azure Synapse Studio への接続に関する記事を参照してください。

オートメーションインターフェイス (オプション)

組織では、クラウド規模の分析機能を強化するために、多くのオートメーションサービスを作成することを決定する場合があります。これらのオートメーションサービスは、分析の状態に関する適合性とオンボーディングのソリューションを動作させます。

これらのオートメーションサービスを構築する場合は、データマーケットプレースと運用コンソールの両方として機能するユーザーインターフェイスが必要です。このインターフェイスは、「メタデータ標準」で前に説明したように、基になるメタデータストアに依存する必要があります。

データマーケットプレースまたは運用コンソールでは、オンボード、メタデータ登録、セキュリティプロビジョニング、データライフサイクル、監視を容易にするために、中間層のマイクロサービスを呼び出します。

メタデータストアをホストするために、automationdb-rg リソースグループをプロビジョニングできます。

重要

これらのどのオートメーションサービスも製品ではなく、ロードマップ項目を示すものでもありません。これらが一覧で示されているのは、どの項目を自動化する必要があるかを検討するのに役立てるためです。

サービス

サービス	サービススコープ
データランディングゾーンのプロビジョニング	このサービスで、新しいデータランディングゾーンを作成します。高頻度で使われる可能性は低いですが、これはエンドツーエンドのオンボードソリューションの完全性のために含まれています。詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください
データ製品のオンボード	このサービスでは、オンボードされたテナントに関連するリソースグループの作成と修正を行います。また、オンボードされた任意のテナントまたはサービスについて、SKU のアップグレードとダウングレード、リソースグループのアクティブ化と非アクティブ化を行う機能が含まれています。これにより、新しいデータランディングゾーン DevOps が作成されます。詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください
アクセスのプロビジョニング	このサービスでは、SPN/UPN を使用して、アクセスパッケージ、アクセスポリシー、資産アクセス承認プロセス (手動または自動) を作成します。過去 90 日間にユーザーが送信したサブスクリプション要求 (資産) の一覧を提供する API を公開することもできます。詳細については、データアクセス管理に関するページを参照してください
データに依存しないインジェスト	このマイクロサービスでは、データランディングゾーンへのインジェストのために、新しいデータソースが作成されます。これは、各データランディングゾーン内の Azure Data Factory SQL Database メタストアと通信することによって行われます。詳細については、Azure でのクラウド規模の分析が、自動インジェストフレームワークでどのようにサポートされているかに関するページを参照してください
Metadata	このサービスでは、プラットフォームのメタデータの公開と作成を行います。詳細については、「メタデータ標準」を参照してください
データのライフサイクル	このサービスは、メタデータに基づいてデータのライフサイクルを管理する役割を担います。このメンテナンスには、コールドストレージへのデータの移動や、保持する必要がなくなったレコードの削除が含まれます。詳細については、「データライフサイクル管理」を参照してください
データドメインのオンボード	データメッシュにのみ適用されます。このサービスでは、新しいドメインに関連するメタデータをキャプチャし、必要に応じて新しいドメインをオンボードします。マイクロサービスに組み込む可能性のあるドメインまたはサービスラインを、作成、更新、アクティブ化、非アクティブ化することもできます。詳細については、「クラウド規模の分析をプロビジョニングする」を参照してください

データの標準化

これは、データ管理ランディングゾーンの特定の機能または製品ではありませんが、すべてのサービスにわたるデータの標準化を求める必要があります。データの標準化では、データが到着して格納される形式を定義します。

ヒント

すべてのサービスとストレージにわたり、可能な場合は常に、事実上の業界標準としてデータレイク形式を使用します。

詳細については、「データの標準化」を参照してください。

次の手順

データランディングゾーンの概要

Share via

クラウド規模の分析のデータ管理ランディングゾーンの概要

データカタログ

データ品質の管理

データモデリングリポジトリ

マスターデータの管理

API カタログ

Azure Container Registry

Azure Synapse の Private Link ハブ

オートメーションインターフェイス (オプション)

サービス

データの標準化

次の手順

その他のリソース

Share via

クラウド規模の分析のデータ管理ランディング ゾーンの概要

データ カタログ

データ品質の管理

データ モデリング リポジトリ

マスター データの管理

API カタログ

データの共有とコントラクト

Azure Container Registry

Azure Synapse の Private Link ハブ

オートメーション インターフェイス (オプション)

サービス

データの標準化

次の手順

その他のリソース

クラウド規模の分析のデータ管理ランディングゾーンの概要

データカタログ

データモデリングリポジトリ

マスターデータの管理

オートメーションインターフェイス (オプション)