Azure でのクラウド規模の分析用の複数のデータ ゾーン

この参照アーキテクチャは、クラウド規模の分析の基本バージョンを実装し、分析操作の最新化に役立つ新しい部署をホストする準備が整っている組織向けです。 このより複雑なシナリオでは、複数のランディング ゾーン、データ アプリケーション、データ製品が使用されます。

Apache Hive、および Hive のロゴは、Apache Software Foundation の米国およびその他の国における登録商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。

問題の説明

この例の架空の会社である Relecloud は、共有コンピューティングとストレージ リソースをグローバル組織に提供するプライベート クラウド プロバイダーです。 Relecloud はコンピューティング リソースを提供していますが、独自の内部操作でプラットフォームを制限することは望んでいません。 そのため、内部コンピューティングのニーズのために Microsoft Azure に依存しています。

運用グループのデータ アナリストは、クラウド サービスのテレメトリ データを使用して、顧客がどのようにプラットフォームを使用しているかを把握しています。 課金グループのアナリストの個別チームは、請求データを調査して、どのサービスが最も収益を生み出しているかについて分析情報を得ています。

最終四半期に、運用チームは分析プラットフォームを Azure に移行して最新化しました。 クラウド規模の分析を実装する目標の 1 つは、プラットフォームのスケーリングと、新しい組織ワークロードの追加についての潜在能力を最大化することでした。

現在、課金グループは現行の分析ソリューションを拡大しています。 分析する請求書の量が、オンプレミス サーバーに対して多すぎます。 運用グループの指示に従い、Azure でデータ分析プラットフォームを最新化することを決定しました。

課金グループのアナリストは、運用グループのアナリストとは異なるスキルを持っています。 課金アナリストは、運用と同じツールを使用するという制約は望んでいません。 課金グループは組織の別の部署であり、ニーズを満たすポリシーと手順を実装できる柔軟性を望んでいます。

アーキテクチャ ソリューション

Relecloud は、課金グループ用の新しいランディング ゾーンを追加することで、分析プラットフォームをスケーリングします。 このランディング ゾーンにより、課金グループがビジネス ニーズを満たす分析ソリューションを実装するための仮想ワークスペースが提供されます。 ランディング ゾーンを組織の他のリソースと分離することで、課金グループは独自のアクセス ポリシーを実装でき、サービスのコストを把握できます。

次の図は、すべての Azure サービスを表しているわけではありません。 この図はアーキテクチャ内のリソース編成の主要な概念を強調するために、簡略化されています。

Diagram of a multiple landing zone architecture for cloud-scale analytics.

データ管理ランディング ゾーン

クラウド規模の分析実装の主要な要件は、1 つのデータ管理ランディング ゾーンです。 このサブスクリプションには、ファイアウォールやプライベート DNS ゾーンなどの共有ネットワーク コンポーネントを含む、すべてのランディング ゾーンで共有されるリソースが含まれています。 データ管理ランディング ゾーンには、Azure Policy や Azure Purview などの、データとクラウド ガバナンスのためのリソースも含まれています。

Relecloud は、運用グループのためのデータ分析ソリューションをデプロイしたときに、データ管理ランディング ゾーンを作成しました。 課金グループがプラットフォームに参加すると、同じデータ管理ランディング ゾーンを使用して、運用グループと共通のリソースを共有します。

運用データ ランディング ゾーン

運用グループには、データ ランディング ゾーンに次のソリューションがあります。

運用データ アプリケーション

チームは、Azure Databricks 内の Apache Spark ジョブを使用してサービス テレメトリ データを取り込み、それを Azure Data Lake Storage アカウントに保存するソースに合わせたデータ アプリケーションを構築しました。

このプロセスでは、ソース システムからデータがそのままコピーされますが、変換は行われません。 アナリストは、分析プラットフォームにコピーされたデータを操作できるため、ソース システムに過度な負荷をかけることがありません。 運用チームは、このデータ アプリケーションのために専用デプロイを作成する代わりに、取り込みと処理の共有リソース グループ内で Databricks ワークスペースを使用します。

お客様である Relecloud は、クラウド アカウントを作成して、プライベート クラウドでリソースと課金を管理できます。 お客様はそれぞれ複数のアカウントを持つことができます。 分析チームは、クラウド アカウント データをインポートするデータ アプリケーションを構築しました。 データの量と頻度はテレメトリ データよりもはるかに少ないため、チームが Spark ジョブを使用する必要はありません。 代わりに、データをコピーする Azure Data Factory パイプラインを作成しました。

Azure Database for MySQL は Hive メタストアとして機能し、Azure SQL Database は Azure Data Factory メタストアです。

運用データ製品

Relecloud のアナリストは、コンシューマーに合わせたデータ アプリケーションを新たに作成することで、ソースに合わせたデータ アプリケーション内のデータから価値を得ます。 こうした使用者に合わせたデータ アプリケーションの 1 つは、クラウド サービス レコメンダー モデルです。 Relecloud のデータ サイエンティストは、Azure Machine Learning を使用して、クラウド アカウントで使用されるサービスを調べ、役立つ可能性がある関連サービスを提案するモデルを構築しました。 チームは、ランディング ゾーンで実行され、Azure Machine Learning によって管理される Azure Kubernetes Service (AKS) クラスターにこのモデルをデプロイします。 クラウド規模の分析の外部で実行されるアプリケーションは、AKS エンドポイントを呼び出して推奨事項を取得できます。

課金チームがランディング ゾーンを作成した後、運用チームは、管理チームが要求した新しいデータ製品を作成します。 管理チームは、クラウド サービス レコメンダー データ アプリケーションが生み出す収益を知ることを望んでいます。 新しいレコメンダー収益データ製品は、クラウド サービス レコメンダーサービス別収益からのデータを Azure Synapse Analytics を使用して組み合わせることによる新しいデータ製品です。 ビジネス アナリストは、Microsoft Power BI を備えた Azure Synapse に接続して、この新しいデータ製品から分析情報を見つけてレポートできます。

課金データ ランディング ゾーン

課金グループは、オンプレミスシステムを使用して分析を強化していましたが、データ量が増加し、その業務に対する会社の依存度が増すにつれて、システムが追い付かなくなりました。 グループは、クラウドに移行することによって、プラットフォームを最新化します。

課金グループは、ランディング ゾーンを運用グループと共有しませんが、ニーズに最適なプラットフォームを自由に構築できる独自のランディング ゾーンを取得します。 新しいランディング ゾーンは、仮想ネットワーク ピアリングを使用して、データ管理ランディング ゾーンおよびその他のすべてのデータ ランディング ゾーンに接続されます。 このメカニズムにより、Azure 内部ネットワーク経由でデータを安全に共有できます。

課金データ アプリケーション

既存のシステムから分析プラットフォームにデータを配置するために、課金グループは 2 つのデータ アプリケーションを構築します。 最初のアプリケーションは、顧客の一覧全体と、顧客の住所、場所、営業担当者の割り当てなどのすべての関連データを含む顧客データを取り込みます。 2 つめのアプリケーションは、顧客に対するすべての料金請求と関連する支払いデータを含む会社の請求書履歴をインポートします。

これらのアプリケーションはどちらも、Azure Synapse の共有ワークスペースのパイプラインによって機能します。 各アプリケーションには、原価計算とセキュリティ境界を支援する専用コンピューティング プールがあります。 共有リソースを使用してアプリケーションを完全に実装できるため、課金グループは、これらのデータ アプリケーションのためにデプロイを作成する必要がありません。

課金データ製品

課金アナリストは、Relecloud の各クラウド サービスがどれだけの収益を生み出すかを分析するサービス別収益という新しいデータ製品を作成します。 この製品は、請求書インジェストのデータに依存します。 この製品は、運用ランディング ゾーンに接続して、サービス使用状況データの読み取りも行います。 このデータ製品も、データ アプリケーションと同様、Azure Synapse の共有ワークスペースに依存します。

デプロイ テンプレート

このアーキテクチャをデプロイするには、データ管理ランディング ゾーンとデータ ランディング ゾーンのリファレンス実装テンプレートを使用します。

Relecloud の課金および運用データ ランディング ゾーンに、他のデータ アプリケーションとデータ製品をデプロイするには、次のテンプレートを使用します。

名前 データ ランディング ゾーン: Type Template
クラウド アカウント 操作 データ アプリケーション データ製品バッチ テンプレート
レコメンダーの収益 操作 データ製品 データ製品バッチ テンプレート
クラウド サービスのレコメンダー 操作 データ アプリケーション データ製品分析テンプレート
サービス別収益 課金 データ製品 データ製品バッチ テンプレート

重要

Relecloud では、ニーズを満たすために上記のリファレンス実装テンプレートのすべてをデプロイする必要はありません。 テンプレートには、ある程度のカスタマイズが必要です。 デプロイ前にテンプレートから不要なサービスを削除します。

次のステップ

Azure での安全なクラウド規模の分析のための Lamna Healthcare シナリオに関するページ進みます。

詳細については、次の記事を参照してください。