データ ウェアハウスと分析

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
Azure SQL データベース
Azure Table Storage

このシナリオ例では、複数のソースからの大量のデータを Azure の統合分析プラットフォームに統合するデータ パイプラインを示します。 この特定のシナリオは販売とマーケティングのソリューションに基づいていますが、この設計パターンは、eコマース、小売り、医療など、大規模なデータセットの高度な分析を必要とする多くの業界に関係があります。

アーキテクチャ

Architecture for a data warehousing and analysis scenario in Azure

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

このソリューションのデータ フローは次のとおりです。

  1. データ ソースごとに、すべての更新が Azure Data Lake Storage 内のステージング領域に定期的にエクスポートされます。
  2. Azure Data Factory によって、Azure Data Lake Storage から Azure Synapse Analytics 内のステージング テーブルに、少しずつデータが読み込まれます。 このプロセスの間にデータのクレンジングと変換が行われます。 PolyBase では、大規模なデータセットに対して処理を並列化できます。
  3. 新しいデータのバッチがウェアハウスに読み込まれた後、以前に作成されていた Azure Analysis Services の表形式モデルが更新されます。 このセマンティック モデルにより、ビジネス データと関係の分析が簡略化します。
  4. ビジネス アナリストは、Microsoft Power BI を使用し、Analysis Services のセマンティック モデルにより、ウェアハウスのデータを分析します。

Components

会社のデータ ソースは多種多様なプラットフォーム上にあります。

  • オンプレミスの SQL Server
  • オンプレミスの Oracle
  • Azure SQL データベース
  • Azure Table Storage
  • Azure Cosmos DB

複数の Azure コンポーネントを使用して、これらの異なるデータ ソースからデータが読み込まれます。

  • Azure Data Lake Storage は、Azure Synapse に読み込まれる前のソース データのステージングに使用されます。
  • Data Factory は、Azure Synapse. 内の共通構造へのステージング データの変換を調整します。 Data Factory では、スループットを最大化するため、Azure Synapse にデータを読み込むときに PolyBase が使用されます。
  • Azure Synapse は、大規模なデータセットを格納および分析するための分散システムです。 超並列処理 (MPP) が使用されているので、ハイパフォーマンス分析の実行に適しています。 Azure Synapse では、PolyBase を使用して、Azure Data Lake Storage からのデータの読み込みを高速化できます。
  • Analysis Services は、データのセマンティック モデルを提供します。 これはデータの分析時のシステム パフォーマンスの向上にもつながります。
  • Power BI は、データを分析し、洞察を共有する一連のビジネス分析ツールです。 Power BI を使用して、Analysis Services に格納されているセマンティック モデルに対してクエリを実行することも、Azure Synapse に対して直接クエリを実行することもできます。
  • Microsoft Entra ID では、Power BI から Analysis Services サーバーに接続するユーザーの認証が行われます。 Data Factory では、Microsoft Entra ID を使って、サービス プリンシパルまたは Azure リソース用のマネージド ID により、Azure Synapse に対する認証を行うこともできます。

代替

  • パイプラインの例には、複数の異なる種類のデータ ソースが含まれます。 このアーキテクチャでは、さまざまなリレーショナルおよび非リレーショナル データ ソースを処理できます。

  • Data Factory では、データ パイプラインに対するワークフローが調整されます。 データの読み込みを 1 回だけ、またはオンデマンドで行いたい場合は、SQL Server の一括コピー (bcp) や AzCopy などのツールを使用して、データを Azure Data Lake Storage にコピーできます。 その後、PolyBase を使用して Azure Synapse に直接データをロードできます。

  • 非常に大きいデータセットがある場合は、Data Lake Storage の使用を検討します。この機能では、分析データ用に無制限のストレージが提供されます。

  • Azure Synapse は、OLTP ワークロードや 250 GB 未満のデータ セットには適していません。 このような場合は、Azure SQL Database または SQL Server を使用する必要があります。

  • 他の代替手段の比較については、以下をご覧ください。

シナリオの詳細

この例では、インセンティブ プログラムを作成する販売およびマーケティング会社を示します。 これらのプログラムは、顧客、仕入先、営業担当者、および従業員に報奨を提供します。 データはこれらのプログラムの基礎であり、会社は Azure を使用してデータ解析により得られる分析情報を向上させることを望んでいます。

適切なデータを使用して適切なタイミングで意思決定が行われるように、最新のデータ分析アプローチが必要です。 会社の目標は次のとおりです。

  • 異なる種類のデータ ソースをクラウド規模のプラットフォームに組み合わせる。
  • データに一貫性を持たせて簡単に比較できるようにするため、ソース データを共通の分類と構造に変換する。
  • オンプレミスのインフラストラクチャの展開と保守に高いコストをかけることなく、数千のインセンティブ プログラムをサポートできる高度に並列化されたアプローチを使用してデータを読み込む。
  • ユーザーがデータの分析に集中できるように、データの収集と変換に必要な時間を大幅に短縮する。

考えられるユース ケース

このアプローチは、以下の目的に使うこともできます。

  • データ ウェアハウスをデータの信頼できる単一のソースとして確立する。
  • リレーショナル データ ソースを他の非構造化データセットと統合する。
  • セマンティック モデリングと強力な視覚化ツールを使用してデータ分析を簡単にする。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

このアーキテクチャのテクノロジは、スケーラビリティおよび可用性とコスト管理の両立という会社の要件を満たすために選択されました。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

Azure 料金計算ツールを使用して、データ ウェアハウジングのシナリオの価格サンプルを確認してください。 値を調整して、要件によるコストへの影響を確認できます。

  • Azure Synapse を使用すると、コンピューティング レベルとストレージ レベルを個別にスケーリングすることができます。 計算リソースは 1 時間単位で課金されるため、オンデマンドでそのリソースをスケーリングまたは一時停止できます。 ストレージ リソースはテラバイト単位で課金されるため、データを取り込んだ分だけコストが増加します。
  • Data Factory のコストは、ワークロード内で実行された読み取り/書き込み操作、監視操作、オーケストレーション アクティビティの数に基づきます。 Data Factory のコストは、データ ストリームおよび各データ ストリームでのデータ量が追加されると増加します。
  • Analysis Services は、Developer レベル、Basic レベル、Standard レベルでご利用いただけます。 インスタンスは、クエリ処理単位 (QPU) と使用可能なメモリに基づいて価格設定されます。 コストを抑えるには、実行するクエリの数、処理するデータの量、実行頻度をできるだけ少なくします。
  • Power BI には、要件に応じたさまざまな製品オプションがあります。 Power BI Embedded では、Power BI の機能をアプリケーションに埋め込むための Azure ベースのオプションが提供されます。 Power BI Embedded インスタンスは上記の料金サンプルに含まれています。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は次のとおりです。

プリンシパル作成者:

  • Alex Buck | シニア コンテンツ開発者

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ