Azure ランディングゾーンの Azure Data Factory のベースラインアーキテクチャ

Azure Data Factory

Azure Key Vault

Azure Databricks

Azure SQL Database

この記事では、ソリューション重視のユースケース向けにメダリオンレイクハウスデザインパターンを実装する方法について説明します。このソリューションでは、 Azure 向けクラウド導入フレームワークのベストプラクティスに準拠したランディングゾーンを備えたハブアンドスポークネットワークトポロジを使用します。

重要

GitHub ロゴ。このガイダンスは、Azure 上のベースライン Azure Data Factory セットアップを示すサンプル実装によってサポートされています。この実装は、実稼働に向けた最初のステップとして、さらなるソリューション開発の基盤として使用できます。

主要な設計上の決定

この設計は、自動化のサポートを受けて Azure クラウドへの移行を開始する中規模から大規模の組織 Contoso を対象としています。 Contoso は、エンタープライズランディングゾーンを備えた Azure クラウド基盤を確立しています。経営陣は、 Azure Well-Architected Framework に従って、最初のデータワークロードをクラウドに移行する準備をしています。

この初期ユースケースには、次のシナリオが含まれます。

データはオンプレミスの財務運用システムから取得されます。
データは分析ユースケースのためにクラウドにコピーされます。
Contoso はエンタープライズデータサイエンス機能を確立します。

主な要件

財務部門およびその他の企業部門では、主に分析およびレポートシステムとしてこのソリューションを使用しています。
オンプレミスのソースシステムには次のプロパティがあります。
- 1 テラバイト (TB) のサイズで、年間 5% の成長が見込まれます。
- 毎晩実行され、年末の財務更新時を除いて通常は午前3時までに終了するバッチ更新プロセス。
ソリューションはソースシステムへの影響を最小限に抑える必要があります。
金融ユーザーは、任意の時点でデータの状態を表示できる必要があります。
最初のユースケースは、セルフサービス機能を備えた分析および管理レポートを対象としています。このソリューション設計は、エンタープライズデータサイエンス機能を構築するための基盤としても機能します。
データは 企業機密として分類されるため、ソリューションには、アクセスまたは使用されるコンポーネントとデータの両方に対する効果的なセキュリティ制御と監視が必要です。保存中のデータと転送中のデータの強力な暗号化により、すべてのデータを保護します。
Contoso のエンタープライズデータモデルには、財務データ専用のサブセットが含まれています。主要なデータ要素は、レポート用に提供される前に、クレンジング、モデル化され、さまざまなレポート階層に適合される必要があります。
現在エンタープライズモデルにマッピングされていない取り込まれたソースデータは保持され、将来の分析やユースケースで使用できるようにする必要があります。
ソリューションは、ソースフィードの可用性に基づいて毎日更新する必要があり、エンドツーエンドのソリューション更新に 90 分未満を目標とする柔軟なコンピューティングオプションを備えている必要があります。
ソリューションは、次のターゲットサービスレベルアグリーメント (SLA) をサポートする必要があります。
- 目標稼働率は 99.5%、つまり 1 年間でダウンタイムは 1 日 20 時間程度です。
- リカバリポイント目標は 3 日です。
- 回復時間の目標は 1 日です。
ソリューションは、根本的な再設計を行わずに将来の成長と機能拡張に対応できるように、将来を見据えて設計する必要があります。
ソリューションは、次の想定される使用法をサポートする必要があります。
- 財務部門に所属するマネージャー、財務管理者、アナリストは 200 名で、年間成長率は 5% 未満と推定されます。
- 他の企業機能と連携しているアナリストは 100 名で、年間成長率は 5% 未満と推定されます。
- Contoso の従業員のみがソリューションにアクセスできます。この制御により、Contoso 社以外または外部の関係者による直接アクセスが明示的に除外されます。
ソリューションには以下が必要です。
- エンドツーエンドの監視と監査証跡。
- 信頼性、パフォーマンス、コストのメトリックに関するアラートが有効になっています。
ソリューションでは以下の点を優先する必要があります。
- 新しいスキルを開発するのではなく、既存のスキルと能力を活用します。この戦略により、複雑さ、リスク、コストが削減されます。
- 最新のクラウドサービス層。たとえば、管理の負担やリスクを軽減し、コストを管理するために、ソリューションでは可能な限りプラットフォームアズアサービス (PaaS) ソリューションを使用する必要があります。
- 市場で成熟しており、簡単に見つけられるコンポーネント。 Contoso は、ソフトウェア開発ライフサイクル (SDLC) 全体にわたってエンジニアのスキルを向上させることを計画しています。
ソリューションは、次の順序で非機能要件 (NFR) に合わせて最適化する必要があります。
1. ソリューションを構築して実行するためのコスト。
2. ソリューションのパフォーマンス。
3. ソリューションの保守性。

主要な設計上の決定

Azure Databricks を使用した最新の分析アーキテクチャがソリューション設計の基礎となります。この設計は、Azure ランディングゾーンのエンタープライズアーキテクチャの自然な拡張です。 Microsoft Entra ID や Azure Monitor など、Azure ランディングゾーンのエンタープライズアーキテクチャの多くの基本コンポーネントを再利用します。ソリューション固有の構成の更新のみが必要です。

この設計により、オートスケール要件を含む予想されるボリュームと処理の要件に簡単に対応できます。
Delta Lake は、 ポイントインタイム 要件と、強化されたデータのバージョン管理、スキーマの適用、およびタイムトラベルをサポートします。 Delta Lake は、原子性、一貫性、独立性、耐久性 (ACID) の保証も提供します。
成熟した市場提供、高いレベルのスキルの可用性、強力なスキルアップとトレーニングが利用可能です。
Azure Databricks の生のまたは検証済みのレイクアクセスを使用して、エンタープライズデータサイエンス機能に対する戦略的な要望をサポートします。
Azure Data Lake Storage と Azure Databricks は、効率的な中規模データのストレージと処理を提供します。
パフォーマンス、信頼性、サービスの回復力に関する要件をサポートします。
PaaS サービスを選択すると、制御が弱まる代わりに、運用上の負担の多くが Microsoft に委ねられます。
ソリューションの初期リリースのため、ライセンスオプションとして Power BI Pro ライセンスを使用することをお勧めします。この選択には、運用コストと Power BI Premium パフォーマンスとの明確なトレードオフがあります。
このソリューションの主な変更点は次のとおりです。
- 予想されるデータ量、導入される新しいコンポーネントの削減、既存のスキルの再利用のため、データモデリング機能には Azure SQL が使用されます。
- ソリューションはバッチベースであるため、機能の一致、コスト、シンプルさに応じて Data Factory が使用されます。
- 設計は拡張可能で、ストリーミング取り込みをサポートします。
- オンプレミスの取り込みには Data Factory セルフホスト型統合ランタイム (SHIR) が必要です。つまり、サービスの回復性には Azure Site Recovery が必要です。
- Microsoft Purview Data Governance は、透明性、データカタログ、ガバナンス機能を提供する基盤レイヤーの一部です。

アーキテクチャ

データフロー

このソリューションでは、SHIR を備えた Data Factory を使用して、オンプレミスのソースシステムから Data Lake Storage にデータを取り込みます。また、Data Factory は Azure Databricks ノートブックを調整して、データを変換し、Data Lake Storage でホストされている Delta Lake テーブルに読み込みます。

Delta Lake は Power BI と連携しており、Delta Lake テーブル上に上級リーダーシップダッシュボードと分析を作成するために使用されます。 Azure Databricks は、データサイエンスおよび機械学習のワークロード向けに、生のレイクのアクセスまたは検証済みのレイクのアクセスも提供します。

次のデータフローは、前の図に対応しています。

データは、SHIR を備えた Data Factory を使用して、オンプレミスのソースシステムから Data Lake Storage に取り込まれます。 Data Factory は、 SQL Server の抽出、変換、読み込みプロセスとともに、 Azure Databricks ノートブックのプロセスオーケストレーションも提供し、データを変換して Data Lake Storage に保存されている Delta Lake テーブルに読み込みます。
Delta Lake は、データのバージョン管理をサポートし、スキーマを強制し、タイムトラベルを可能にし、ACID 準拠を保証するオープンフォーマットレイヤーを提供します。データは次のレイヤーに編成されます。
- ブロンズレイヤーにはすべての生データが保持されます。
- シルバーレイヤーには、クリーンアップされフィルタリングされたデータが含まれています。
- ゴールドレイヤーには、ビジネス分析に役立つ集計データが保存されます。

データレイクストレージは、あらゆる種類のデータを効率的に保存できるため、Delta Lake の基盤となります。この柔軟性により、さまざまな速度のワークフローがサポートされ、コスト効率が維持されます。

SQL Server は、階層の適合性を含むエンタープライズデータモデリング要件をサポートするために使用されます。
Power BI は、エンタープライズモデルから管理情報ダッシュボードを作成するために使用されます。このサービスは、一貫性があり、標準化された、パフォーマンスの高いデータビューを提供します。 Power BI では、Azure Databricks を使用して Delta Lake から直接分析作業を行うこともできます。
このソリューションは、コラボレーション、ガバナンス、信頼性、セキュリティを実現する 2 つのコンポーネントを基礎となる Azure サービスに追加します。
- Microsoft Purview は、データ探索サービス、統合カタログ、およびプラットフォーム全体のガバナンス分析情報を提供します。
- Site Recovery は、オンプレミスからデータを取り込むために必要なコンピューティングを Data Factory SHIR に提供する VM のバックアップとリカバリをサポートします。

このソリューションをサポートするには、次の基盤サービスに拡張が必要です。

Azure DevOps は、継続的インテグレーションと継続的デリバリー (CI/CD) およびその他の統合バージョン管理機能を提供します。
Azure Key Vault は、シークレット、キー、証明書を安全に管理します。
Microsoft Entra ID は、Azure Databricks および Power BI ユーザーを含むスタック全体でシングルサインオン (SSO) を提供します。
Azure Monitor は、Azure リソーステレメトリを収集して分析し、監査とアラートを提供します。このサービスは、問題を積極的に特定することでパフォーマンスと信頼性を最大化します。
Microsoft Cost Management は、Azure ワークロード向けの財務ガバナンスサービスを提供します。

ネットワーク設計

このアーキテクチャの Visio ファイルをダウンロードします。

Azure ファイアウォールを使用すると、オンプレミスのインフラストラクチャと Azure 仮想ネットワーク間のネットワーク接続をセキュリティで保護できます。
SHIR は、オンプレミス環境または Azure の仮想マシン (VM) にデプロイできますが、後者がレコメンデーションとなります。 SHIR を使用すると、オンプレミスのデータソースに安全に接続し、Data Factory でデータ統合タスクを実行できます。
プライベートリンクとプライベートエンドポイントが実装されており、これを使用してサービスを仮想ネットワークに導入できます。
機械学習支援データのラベル付けを活用するには、Azure Machine Learning ワークスペース用に作成した既定のストレージアカウントとは異なる新しいストレージアカウントを作成する必要があります。新しい非デフォルトのストレージアカウントを、ワークスペースと同じ仮想ネットワークにバインドできます。ストレージアカウントを別々に保持したい場合は、その仮想ネットワーク内の別のサブネットに配置できます。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。詳細については、Microsoft Azure Well-Architected Frameworkのに関するページを参照してください。

Azure Databricks Delta Lake を使用する場合、アーカイブ層は有効なオフラインストレージであるため、アーカイブ層の Azure Storage アカウントは使用できません。この設計の選択は、機能性とコストの間のトレードオフです。
新しい Azure Databricks ワークスペースを作成すると、マネージドストレージアカウント (Azure Databricks ファイルシステムまたは Databricks ファイルシステムルート) の既定の冗長性が geo 冗長ストレージ (GRS) として設定されます。 geo 冗長性が不要な場合は、冗長性をローカル冗長ストレージ (LRS) に変更できます。
原則として、1 TB 未満のデータウェアハウスは、Synapse よりも Azure SQL Database の方がパフォーマンスが向上します。データウェアハウスが 1 ～ 5 TB を超えると、Synapse のパフォーマンスが向上し始めます。このパフォーマンスの違いが、Synapse ではなく Azure SQLを選択する主な要因です。

代替

Microsoft Fabric には、Data Factory、Azure Databricks、Power BI が 1 つのソリューションとして組み込まれています。 Fabric は比較的新しいサービスであるため、このシナリオで使用されるサービスと一致する機能が現在利用できない場合があります。オペレーターにとっては学習曲線もあるかもしれません。

Azure Synapse Analytics は、ストレージ処理層の代替手段です。 Azure Databricks は成熟しており、機能的に適合しており、市場でスキルを利用できるため、このサービスはこの記事で説明されているシナリオには適していません。

ストレージモデリングレイヤーの代替として、次のサービスがあります。

Azure Synapse Analytics: このサービスは、データ量と Azure Databricks との機能の重複のため、この記事で説明するシナリオには適していません。
Azure SQL Managed Instance: このサービスは、移行要件がなく、運用コストが高いため、この記事で説明するシナリオには適していません。
Azure Database for PostgreSQL: このサービスは、Contoso の既存のスキルセットと、新しいテクノロジの導入を最小限に抑えるための優先設定のため、この記事で説明されているシナリオに適していません。これにより、コストと複雑さが軽減されます。

[信頼性]

信頼性により、顧客に確約したことをアプリケーションで確実に満たせるようにします。詳細については、「信頼性の設計レビューチェックリスト」を参照してください。

ビジネスインテリジェンス分析およびレポートシステムの信頼性目標に合わせるには:

ソリューション全体のデフォルトの Azure SLA は要件を満たしているため、高可用性やマルチリージョンのアップグレードは必要ありません。
このアーキテクチャでは、ソリューションのサービス重要度が低く、PaaS サービスが使用されているため、 Microsoft を待機する災害復旧戦略が採用されています。
次のネイティブ機能はデータのバックアップに対応します。
- Azure Databricks Delta Lake テーブル履歴。
- SQL Server デフォルトのバックアップ。
- 取り込まれたすべてのソースデータを追加専用形式で保存する Delta Lake ブロンズレイヤー。この機能により、ソースシステムからの再取り込みを行わずにソリューションを完全に再生できます。

重要

回復力の目標を達成するには、可能な場合は、さまざまな可用性ゾーンまたはリージョンに複数の SHIR インスタンスをデプロイします。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。詳細については、「セキュリティの設計レビューチェックリスト」を参照してください。

このアーキテクチャは、選択されたインフラストラクチャと実装された制御およびデータプレーン制御の構成を通じてセキュリティに対処します。これらの設計上の選択は、ゼロトラストモデルと最小権限アクセスの原則に基づいています。ネイティブコンポーネントは次のセキュリティコントロールを使用します。

ソリューションコンポーネントは、認証と承認にマネージド ID を使用し、一貫したロールベースのアクセス制御を可能にします。
Key Vault はアプリケーションのシークレットと証明書を安全に保存します。
コンポーネント固有の組み込みロールにより、コントロールプレーンレベルでの認証のきめ細かな制御が可能になります。
- 範囲の都合上、これらの特定のロールは一般的なロールよりも優先されます。
- カスタムロールは、継続的なライフサイクル管理要件のため明示的に除外されます。
ドメイン固有の Microsoft Entra グループのセットは、ソリューション全体のデータへのアクセスを制御し、Contoso のデータ分類フレームワークを反映します。個々のソリューションコンポーネントは、これらのグループを使用してデータレベルの制御を適用します。たとえば、SQL Server 動的データマスキングと Power BI 行レベルのセキュリティはどちらもこの設計をサポートしています。
- この設計により、コンポーネントへのアクセスを許可しながら、コンポーネント内のデータの表示を禁止することが可能になります。データにアクセスするには、ユーザーはコンポーネントへのアクセス権も持っている必要があります。
- このソリューションは、再利用を可能にするために、ドメインレベルで財務などのグループを作成します。データ分類フレームワークは、ソリューション固有のグループの拡散を制限します。

コストの最適化

コストの最適化は、不要な費用を削減し、運用効率を向上させる方法を検討することです。詳細については、「コスト最適化の設計レビューチェックリスト」を参照してください。

コストの最適化に対応するために、このアーキテクチャは次のようになります。

コンポーネント SKU の選択を要件に強くリンクすることで、 構築すれば顧客が来る というアンチパターンを回避します。このソリューションは、メトリックの定期的なレビューをスケジュールして、サイズ適正化と Microsoft Copilot in Azureの使用を可能にします。
より広範な財務運用フレームワークの一部として、次のような実用的な運用経費削減メリットを実現します。
- 安定したワークロードにはAzure 予約を、動的なワークロードには節約プランを、ソリューション全体で最大期間にわたって提供します。
- データフロー用の Data Factory 予約容量。
- Log Analytics コミットメントティア。
コスト削減と即時応答のトレードオフに対応するコンポーネント構成を備えています。
- Azure Databricks サーバーレスコンピューティング。
- ストレージアカウントアクセス層は、ライフサイクル管理ポリシー構成によって自動化されます。 Delta Lake 内ではアーカイブ層は使用できません。
- データ保持とアーカイブおよび Azure Monitor用のLog Analyticsワークスペース。
Azure ハイブリッド特典を使用して、SQL Server ライセンスのコストを削減します。
コスト管理と支出ガードレールを通じてコストと予算のアラートを実装します。

オペレーショナルエクセレンス

オペレーショナルエクセレンスは、アプリケーションをデプロイし、運用環境で実行し続ける運用プロセスを対象としています。詳細については、「オペレーショナルエクセレンスのデザインレビューチェック一覧」を参照してください。

SDLC 全体にわたる自動化、監視、監査を通じて、運用の卓越性が実現されます。このソリューションには以下が含まれます。

コア監視コンポーネントとしてAzure Monitor と Log Analytics ワークスペースを使用します。
ソリューションコンポーネント全体の透明性を実現するタグ付け戦略。
開発のための以下のコンポーネント:
- すべての運用展開では、 Azure Repos や GitHubなどのソース管理リポジトリ内に保存されるコードとしての構成を介して Azure DevOps が使用されます。この構成により、デプロイメントの完全な監査証跡が提供され、最新のデプロイメント方法、ロールバック、およびリカバリが可能になります。
- PSRule などのテストフレームワークにより、デプロイメントが Well-Architected Framework ガイダンスに準拠していることが保証されます。
- >Azure Policy は組織の標準を適用し、コンプライアンスを大規模に評価します。 Azure Governance Visualizer は、技術的な実装に関する構成可能で詳細な分析情報を提供します。

監視

監視は、どの運用レベルソリューションでも重要な部分です。エンドツーエンドの可観測性戦略の一部として、監視戦略を使用して Azure ソリューションをサポートします。

Azure Databricks では、カスタムアプリケーションメトリック、ストリーミングクエリイベント、アプリケーションログメッセージを監視するための堅牢な機能が提供されます。 Azure Databricks は、この監視データをさまざまなログサービスに送信できます。 Azure Monitor を使用して、Data Factory パイプラインを監視し、診断ログを書き込むことができます。 Azure Monitor では、ほとんどの Azure サービスに対して、基礎レベルのインフラストラクチャのメトリックとログを提供します。詳細については、「Azure Databricks の監視」を参照してください。

推奨されるアラートベースラインには以下が含まれます。

Azure Databricks コンピューティングクラスター、Data Factory SHIR、および SQL Server のコストと予算のアラート。
ソリューション全体で長時間実行されるプロセス。
SQL Server 接続拒否。
Power BI の使用状況と、該当する場合は Power BI Premium の容量調整。
データ収集が多い場合の Log Analytics ワークスペース。

重要

地域的なサービス問題が発生した場合に継続性を確保するために、アラートアクショングループをグローバルリソースとして作成します。

パフォーマンス効率

パフォーマンス効率は、ユーザーの要求を効率的に満たすワークロードの機能です。詳細については、「パフォーマンス効率の設計レビューチェックリスト」を参照してください。

パフォーマンス効率に対処するために、このアーキテクチャには次の機能があります。

要件に基づいたさまざまなコンポーネントバージョンの標準サービス層。サービスレベルを中断することなく、これらのリソースをオンデマンドで拡張できます。製品版リリース前に、自動スケーリングを厳密にテストする必要があります。
次のようなクラウドネイティブ機能を使用して需要をサポートするコンピューティングオプションのベースライン:
- Azure Databricks 自動スケーリング。
- SQL Server のスケールアップとスケールダウン。
- パフォーマンスとスケーラビリティのための Data Factory ジョブ構成。

次のような最適化ガイドに記載されているガイダンスをソリューション全体に適用します。

Azure Databricks。
Data Factory のデータフローと SHIR。
SQL Server。
Power BI。

データソリューションのパフォーマンスは通常、時間の経過とともに低下することを理解します。継続的なパフォーマンス最適化の能力を確立し、ソリューションが目的に適合していることを確認するために積極的な技術レビューを実施します。

アンチパターン

オンプレミスの考え方: クラウドサービスは、調達時間、機能、容量などの従来の制約に対処します。これらのサービスにより、SDLC 全体にわたるコスト管理の必要性も高まります。人、プロセス、テクノロジー全体でこの要素を無視すると、予期しないコストや関係者間の摩擦が生じることがよくあります。
境界制御が答えです: クラウドサービス、特に PaaS には、実装して適切に管理する必要がある主要な制御として ID があります。ネットワークと境界制御は重要ですが、それらはソリューションの一部にすぎず、完全な答えではありません。
設定して忘れる: クラウドソリューションでは、現在の使用状況とパフォーマンスを評価するために定期的なレビューが必要です。これらのレビューでは、Azure の機能および価格の変更を考慮する必要があります。こうしたレビューがなければ、ソリューションの価値と有効性は時間の経過とともに低下する可能性があります。

このシナリオのデプロイ

このアーキテクチャをデプロイするには、 GitHub サンプルの手順に従ってください。

Azure VM に SHIR をデプロイするには、クイックスタートテンプレートを使用します。

次の方法で共有

Azure ランディングゾーンの Azure Data Factory のベースラインアーキテクチャ

主要な設計上の決定

主な要件

主要な設計上の決定

アーキテクチャ

データフロー

ネットワーク設計

考慮事項

代替

[信頼性]

セキュリティ

コストの最適化

オペレーショナルエクセレンス

監視

パフォーマンス効率

アンチパターン

このシナリオのデプロイ

次のステップ

次の方法で共有

Azure ランディング ゾーンの Azure Data Factory のベースライン アーキテクチャ

主要な設計上の決定

主な要件

主要な設計上の決定

アーキテクチャ

データフロー

ネットワーク設計

考慮事項

代替

[信頼性]

セキュリティ

コストの最適化

オペレーショナル エクセレンス

監視

パフォーマンス効率

アンチパターン

このシナリオのデプロイ

次のステップ

関連リソース

フィードバック

Azure ランディングゾーンの Azure Data Factory のベースラインアーキテクチャ

オペレーショナルエクセレンス