データのランディングゾーン

[アーティクル]
07/17/2023

データランディングゾーンは、仮想ネットワーク (VNet) ピアリングによってデータ管理ランディングゾーンに接続されます。各データランディングゾーンは、Azure ランディングゾーンアーキテクチャに関連するランディングゾーンと見なされます。

重要

データランディングゾーンをプロビジョニングする前に、DevOps と CI/CD 運用モデルを設定し、データ管理ランディングゾーンをデプロイしておいてください。

各データランディングゾーンには、それに含まれるサービスデータ統合とデータ製品の機敏性を可能にする複数のレイヤーがあります。標準のサービスセットを使用して新しいデータランディングゾーンをデプロイし、データランディングゾーンでデータのインジェストと分析を開始させることができます。

データランディングゾーンに関連付けられる Azure サブスクリプションは次の構造になります。

レイヤー	必須	リソースグループ
コアサービス	はい	Network Azure Databricks ワークスペースの監視 Azure Databricks の Hive メタストアデータレイクサービスアップロードインジェストストレージデータに依存しないインジェスト共有統合ランタイム CI/CD エージェントデータに依存しないインジェスト共有 Databricks 共有 Azure Synapse Analytics
データアプリケーション	省略可能	データアプリケーション (1 つ以上)
視覚化	オプション	レポートと視覚化

Note

データアプリケーションによって、1 つ以上のデータ製品が生成されます。

データランディングゾーンのアーキテクチャ

データランディングゾーンのアーキテクチャには、レイヤー、それらのリソースグループ、各リソースグループに含まれるサービスが示されています。さらに、このアーキテクチャにはデータランディングゾーンに関連付けられているすべてのグループとロールの概要と、コントロールおよびデータプレーンへのそれらのアクセスの範囲も示されています。

ヒント

データランディングゾーンのデプロイを開始する前に、まず、デプロイする初期データランディングゾーンの数を検討してください。

このアーキテクチャを開始点として使用します。データランディングゾーンの実装を計画する際は、Visio ファイルをダウンロードし、特定のビジネス要件や技術要件に合わせて変更してください。

コアサービスレイヤー

コアサービスレイヤーには、クラウド規模の分析のコンテキスト内でデータランディングゾーンを有効にするために必要なすべてのサービスが含まれています。次の表に、デプロイするすべてのデータランディングゾーンで使用可能なサービスの標準スイートを提供するリソースグループを示します。

リソースグループ	必須	説明
network-rg	はい	ネットワーク
databricks-monitoring-rg	省略可能	Azure Databricks ワークスペースの監視
hive-rg	省略可能	Azure Databricks の Hive メタストア
storage-rg	はい	データレイクサービス
external-data-rg	はい	アップロードインジェストストレージ
runtimes-rg	はい	共有統合ランタイム
mgmt-rg	はい	CI/CD エージェント
metadata-ingestion-rg	省略可能	データに依存しないインジェスト
databricks-monitoring-rg	省略可能	ランディングゾーン内の databricks ワークスペースの Log Analytics ワークスペース
shared-synapse-rg	省略可能	共有 Azure Synapse
shared-databricks-rg	省略可能	共有 Azure Databricks ワークスペース

ネットワーク

Diagram of a data landing zone network resource group.

ネットワークリソースグループには、Azure Network Watcher、ネットワークセキュリティグループ (NSG)、仮想ネットワークなどのコアコンポーネントが含まれています。これらのサービスはすべて 1 つのリソースグループにデプロイされます。

データランディングゾーンの仮想ネットワークは、データ管理ランディングゾーンの VNet および接続サブスクリプションの VNet と自動的にピアリングされます。

Azure Databricks ワークスペースの監視

このリソースグループは省略可能であり、Azure Databricks でのみデプロイします。

Diagram of data landing zone monitoring resource group.

Azure ランディングゾーンパターンでは、すべてのログを中央の Log Analytics ワークスペースに送信することが推奨されます。ただし、各データランディングゾーンには、Databricks から Spark ログをキャプチャするための監視リソースグループも含まれています。各リソースグループには、共有 Log Analytics ワークスペースと、Log Analytics キーを格納するための Azure Key Vault が含まれています。

重要

Databricks 監視リソースグループの Log Analytics ワークスペースは、Databricks Spark ログのキャプチャのためにのみ使用します。

詳細については、「Azure Databricks の監視」を参照してください。

Azure Databricks の Hive メタストア

このリソースグループは省略可能であり、Azure Databricks でのみデプロイする必要があります。

Azure Databricks の Hive メタストアでは、Azure Database for MySQL データベースとキーコンテナーがプロビジョニングされます。データランディングゾーン内のすべての Azure Databricks ワークスペースによって、このメタストアが外部の Apache Hive メタストアとして使用されます。

詳細については、「外部 Apache Hive メタストア」を参照してください。

データレイクサービス

Diagram of data landing zone data lake services resource group.

前の図に示すように、1 つのデータレイクサービスリソースグループに 3 つの Azure Data Lake Storage Gen2 アカウントがプロビジョニングされます。さまざまなステージで変換されたデータが、データランディングゾーンのいずれかのデータレイクに保存されます。データは、分析、データサイエンス、視覚化チームが使用できるようになります。

データレイクレイヤーでは、テクノロジとベンダーによって異なる用語が使用されます。次の表は、クラウド規模の分析に用語を適用する方法に関するガイダンスを示しています。

クラウド規模の分析	Delta Lake	その他の用語	説明
Raw	ブロンズ	ランディングと適合性	インジェストテーブル
強化	シルバー	標準化ゾーン	改善されたテーブル。レコードのシステムから完全なエンティティの消費対応レコードセットが格納されます。
Curated	ゴールド	製品ゾーン	機能テーブルまたは集計テーブル。アプリケーション、チーム、ユーザーがデータ製品を使用するためのプライマリゾーン。
開発	--	開発ゾーン	分析サンドボックスと製品開発ゾーンの両方で構成されるデータエンジニアとデータサイエンティスト用の場所。

Note

前の図では、各データランディングゾーンに 3 つのデータレイクがあります。ただし、要件によっては、生、エンリッチ、キュレーションレイヤーを 1 つのストレージアカウントに統合し、データコンシューマーが他の有用なデータ製品を取り込むために、"開発" と呼ばれる別のストレージアカウントを維持することが必要になる場合があります。

詳細については、次を参照してください。

アップロードインジェストストレージ

サードパーティのデータ発行元は、データアプリケーションチームがそれぞれのデータレイクにデータをプルできるように、データをプラットフォームに配置する必要があります。次の図に示されているように、アップロードインジェストストレージリソースグループにより、サードパーティ用の BLOB ストアをプロビジョニングできます。

Diagram of upload ingest storage service.

データアプリケーションチームは、これらのストレージ BLOB を要求します。その要求は、データランディングゾーン運用チームによって承認されます。データがストレージ BLOB から生にプルされたら、それをソースストレージ BLOB から削除する必要があります。

重要

Azure Storage Blob は "必要に応じて" プロビジョニングされるため、最初に、各データランディングゾーンに空のストレージサービスリソースグループをデプロイする必要があります。

共有統合ランタイム

仮想マシンを、セルフホステッド統合ランタイムと共にデータランディングゾーンにデプロイします。それを共有統合リソースグループでホストします。このデプロイにより、データ製品をデータランディングゾーンに迅速にオンボードできます。

Diagram of a data landing zone shared integration resource group.

リソースグループを有効にするには:

データランディングゾーンの共有統合リソースグループに、少なくとも 1 つの Azure Data Factory を作成します。それは、データパイプライン用ではなく共有セルフホステッド統合ランタイムをリンクするためだけに使用します。
仮想マシンにセルフホステッド統合ランタイムを作成して構成します。
セルフホステッド統合ランタイムを、データランディングゾーン内の Azure Data Factory に関連付けます。
セルフホステッド統合ランタイムを定期的に更新するように Azure Automation を設定します。

Note

上記のデプロイでは、セルフホステッド統合ランタイムを使用した単一の仮想マシンのデプロイが提供されます。セルフホステッド統合ランタイムを複数のオンプレミスマシンまたは Azure の仮想マシンに関連付けることができます。これらのコンピューターは、ノードと呼ばれます。セルフホステッド統合ランタイムには最大で 4 つのノードを関連付けることができます。論理ゲートウェイ用にゲートウェイがインストールされているオンプレミスコンピューターに複数のノードを配置すると、次のような利点があります。

セルフホステッド統合ランタイムの可用性の向上によって、ビッグデータソリューションまたはクラウドデータ統合における単一障害点がなくなります。この可用性により、最大 4 つのノードを使用する場合に継続性が確保されます。
オンプレミスとクラウドデータストアとの間のデータ移動は、パフォーマンスとスループットが向上しました。詳しくはパフォーマンス比較を参照してください。

セルフホステッド統合ランタイムソフトウェアをダウンロードセンターからインストールして、複数のノードを関連付けることができます。その後、チュートリアルの説明に従って、New-AzDataFactoryV2IntegrationRuntimeKey コマンドレットから取得した認証キーのいずれかを使用して、登録します。

詳細については、Azure Datafactory の高可用性とスケーラビリティに関するページを参照してください。

重要

共有統合ランタイムは可能な限りデータソースの近くにデプロイします。それらのデプロイによって、データランディングゾーン内、またはサードパーティのクラウドへの統合ランタイムのデプロイが制限されることはありません。代わりに、クラウドネイティブのリージョン内データソースにフォールバックが提供されます。

CI/CD エージェント

CI/CD エージェントは、データランディングゾーンへのデータアプリケーションと変更をデプロイするのに役立ちます。

詳細については、「Azure Pipeline エージェント」を参照してください。

データに依存しないインジェスト

Diagram of Data landing zone ingest and processing resource group.

このリソースグループは省略可能であり、ランディングゾーンのデプロイを禁止するものではありません。

このリソースグループは、登録するメタデータ (接続文字列、データのコピー元とコピー先のパス、インジェストスケジュールなど) に基づいてデータを自動的に取り込むためのデータに依存しないインジェストエンジンがある (または開発している) 場合に適用されます。インジェストおよび処理リソースグループには、この種類のフレームワークの主要なサービスがあります。

Azure Data Factory によって使用されるメタデータを保持する Azure SQL Database インスタンスをデプロイします。自動インジェストサービスに関連するシークレットを格納するための Azure Key Vault をプロビジョニングします。これらのシークレットには、次のものが含まれる可能性があります。

Azure Data Factory メタストアの資格情報
自動インジェストプロセス用のサービスプリンシパルの資格情報

詳細については、自動インジェストフレームワークで Azure のクラウド規模の分析をサポートする方法に関するページを参照してください。

このリソースグループに含まれるサービスには次のものがあります。

サービス	必須	ガイドライン
Azure Data Factory	はい	Azure Data Factory は、データに依存しないインジェストのためのオーケストレーションエンジンです。
Azure SQL DB	はい	Azure SQL DB は、Azure Data Factory のメタストアです。
Event Hubs または IoT Hub	オプション	Event Hubs または IoT Hub では、Event Hubs へのリアルタイムストリーミングと、Databricks エンジニアリングワークスペースを介したバッチとストリーミングの処理を行うことができます。
Azure Databricks	省略可能	Azure Databricks または Azure Synapse Spark をデプロイして、データに依存しないインジェストエンジンで使用できます。
Azure Synapse	省略可能	Azure Databricks または Azure Synapse Spark をデプロイして、データに依存しないインジェストエンジンで使用できます。

共有 Databricks

このリソースグループは省略可能であり、Azure Databricks でのみデプロイします。データランディングゾーンのすべてのユーザーが Databricks ワークスペースを使用できます。

Azure Databricks は、Azure Data Lake Storage サービスの主要なコンシューマーです。アトミックファイル操作は、Spark 分析エンジン用に最適化されています。この最適化により、Azure Databricks サービスによって発行された Spark ジョブの完了が高速化されます。

Diagram of data landing zone shared databricks resource group.

重要

共有製品リソースグループに示されているように、Azure Databricks (分析) ワークスペースを呼び出した Azure Databricks ワークスペースがデータサイエンティストと DataOps 向けに、プロビジョニングされます。

このワークスペースは、Microsoft Entra パススルーまたはテーブルアクセス制御を使用して Azure Data Lake に接続するように構成できます。ユースケースに応じて、別のセキュリティ対策として条件付きアクセスを構成できます。

クラウド規模の分析のベストプラクティスに従って、Azure Databricks を統合します。

Azure ランディングゾーンパターンでは、すべてのログを中央の Log Analytics ワークスペースに送信することが推奨されます。ただし、各データランディングゾーンには、Databricks から Spark ログをキャプチャするための監視リソースグループも含まれています。

共有 Azure Synapse Analytics

このリソースグループは省略可能です。

データランディングゾーンの初期セットアップ時に、1 つの Azure Synapse Analytics ワークスペースがデプロイされ、共有製品リソースグループ内のすべてのデータアナリストおよびデータサイエンティストが使用できます。

コスト管理と再チャージが必要な場合は、データ製品用に追加の Synapse ワークスペースを設定できます。データアプリケーションチームは、視覚化レイヤーで使用される読み取りデータストアとして専用の Azure SQL Database プールを作成するために、専用の Azure Synapse Analytics ワークスペースを使用する場合があります。

重要

ワークスペースをロックダウンして SQL オンデマンドクエリのみを許可することで、データ製品の作成に共有 Azure Synapse ワークスペースを使用できないようにします。これは開発目的でのみ存在します。

データアプリケーション

各データランディングゾーンには複数のデータ製品を含めることができます。ソースからデータを取り込むことで、これらのデータ製品を作成できます。また、同じデータランディングゾーン内または他のデータランディングゾーンのデータ製品からデータ製品を作成することもできます。データ製品のデータ製品作成は、データスチュワードによる承認の対象です。

データ製品リソースグループ

データ製品リソースグループ製品には、そのデータ製品を作成するために必要なすべてのサービスが含まれています。たとえば、MySQL には Azure Database が必要であり、それは視覚化ツールによって使用されます。データはその MySQL データベースに配置する前に、取り込んで変換する必要があります。この場合、Azure Database for MySQL と Azure Data Factory をデータ製品リソースグループにデプロイすることができます。

ヒント

運用ソースから 1 回取り込むためにデータに依存しないエンジンを実装しない場合、またはデータに依存しないエンジンでは複雑な接続の助けにならない場合は、ソースアラインのデータアプリケーションを作成します。詳細については、「データアプリケーション (ソースアライン)」を参照してください

データ製品をオンボードする方法の詳細については、「Azure でのクラウド規模の分析データ製品」を参照してください。

グラフ

データランディングゾーンごとに、空の視覚化リソースグループが作成されます。このリソースグループに、視覚化ソリューションを実装するために必要なサービスを含めます。既存の VNet を使用して、自分のソリューションからデータ製品に接続させます。

このリソースグループでサードパーティの視覚化サービス用の仮想マシンをホストできます。

ヒント

ライセンスコストのため、サードパーティの視覚化製品をデータ管理のランディングゾーンにデプロイし、それらの製品でデータランディングゾーンにまたがって接続してデータをプルする方が経済的な場合があります。

次の手順

Azure でのクラウド規模の分析データ製品

Share via

データのランディングゾーン

データランディングゾーンのアーキテクチャ