エンタープライズ データ ウェアハウス

Azure Blob Storage
Azure Data Lake
Azure Synapse Analytics

ソリューションのアイデア

このアーティクルはソリューションのアイデアです。 このコンテンツにさらに多くの情報 (想定されるユース ケース、代替サービス、実装に関する考慮事項、価格ガイダンスなど) の掲載をご希望の方は、GitHub のフィードバックでお知らせください。

この記事では、次の Azure のエンタープライズ データ ウェアハウスのソリューションについて説明します。

  • 規模や形式を問わず、すべてのデータをまとめることができます。
  • すべてのユーザーが分析ダッシュボード、操作レポート、高度な分析を通じてデータから分析情報を得る手段が提供されます。

Apache® および Apache Spark は、Apache Software Foundation の米国およびその他の国における登録商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。

アーキテクチャ

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

  1. Azure Synapse Analytics パイプラインを使用して、ログ、ファイル、メディアなどの構造化データ、非構造化データ、半構造化データをまとめます。 パイプラインで Azure Data Lake Storage にデータを格納します。
  2. Azure Synapse Analytics の Apache Spark プールで、Data Lake Storage のデータがクリーンされ変換されます。
  3. Azure Synapse Analytics で、処理済みのデータと既存の構造化データが結合され、1 つの統合データ ハブが作成されます。
  4. 専用 SQL プールを使うと、分析情報を導き出す操作レポートや分析ダッシュボードでデータを利用できます。 Azure Analysis Services は、レポートとダッシュボードを何千人ものエンド ユーザーに提供します。

Components

  • Azure Synapse Analytics は、データ ウェアハウスおよびビッグ データ システム用の分析サービスです。 このツールは、超並列処理アーキテクチャを使用し、Azure サービスと緊密に統合されています。
  • Azure Synapse Analytics パイプラインを使用すると、抽出、読み込み、変換 (ELT) や抽出、変換、読み込み (ETL) ワークフローなどのワークフローを作成、スケジュール、調整できます。
  • Azure Blob Storage は、あらゆる種類の非構造化データ (画像、ビデオ、音声、ドキュメントなど) の非常にスケーラブルかつコスト効率に優れたオブジェクト ストレージです。
  • Data Lake Storage は、大量のデータを未加工のネイティブ形式で保持するストレージ リポジトリです。 Data Lake Storage は、Blob Storage 上に構築されています。 その結果、Data Lake Storage では、Blob Storage のスケーラビリティ、階層型ストレージ、高可用性、ディザスター リカバリー機能が提供されます。
  • Azure Synapse Analytics Spark プールは、ビッグ データ分析アプリケーションのパフォーマンスを向上させるメモリ内処理をサポートする並列処理フレームワークです。
  • Analysis Services は、ユーザーがアドホック データ分析を簡単に実行できるエンタープライズ レベルの分析エンジンです。 Analysis Services を使用して、大規模なビジネス ソリューションの管理、テスト、提供を行うことができます。
  • Power BI は、組織全体に分析情報を提供できるビジネス分析ツール スイートです。 Power BI を使用すると、数百のデータ ソースに接続でき、データ準備が簡略化され、アドホック分析が促進されます。 優れたレポートを生成し、組織に公開して、Web やモバイル デバイスで使用することもできます。

シナリオの詳細

エンタープライズ データ ウェアハウスでは、ソース、形式、規模を問わず、すべてのデータをまとめることができます。 データ ウェアハウスでは、データに対して高パフォーマンスの分析を実行する手段も用意されているため、分析ダッシュボード、操作レポート、高度な分析を通じて分析情報を得ることができます。

このソリューションにより、以下のようなデータ ウェアハウスが確立されます。

  • データの信頼できる唯一の情報源。
  • リレーショナル データ ソースと他の非構造化データセットが統合されている。
  • セマンティック モデリングと強力な視覚化ツールによりデータ分析が簡素化される。

統合プラットフォームにデータを統合するために、このソリューションでは Azure Synapse Analytics パイプラインを使用します。 これらのパイプラインでは、ELT と ETL の機能が提供されます。 具体的には、パイプラインを使用して、データ主導ワークフロー内のデータを移行できます。 パイプラインは、さまざまなデータ形式や構造体に対応しています。

パイプラインは、Blob Storage 上に構築された Data Lake Storage にデータを格納します。 このストレージ サービスは、大量の非構造化データを処理できます。

Azure Synapse Analytics Spark プールは、このソリューションの重要な部分を形成しています。 これらのプールで、Azure に格納されているデータがクリーンされ変換されます。 並列処理フレームワークは、メモリ内処理に対応しており、スピードと効率性を実現します。 プールは自動スケーリングにも対応しているため、必要に応じてノードの追加や削除を行うことができます。

専用 SQL プールを使用すると、処理済みのデータを高パフォーマンス分析に利用できます。 このプールでは、列指向ストレージを持つリレーショナル テーブルにデータが格納されます。これは、データ ストレージ コストを大幅に削減する形式です。 また、クエリのパフォーマンスも向上するため、大規模に分析を実行できます。

考えられるユース ケース

このソリューションは、大量のデータを扱う次のようなシナリオで活用できます。

  • IoT デバイスの統合
  • 顧客データ プラットフォーム
  • 自然言語処理
  • 機械学習のアルゴリズム

価格

このソリューションのコストの見積もりを確認するには、料金計算ツールの価格サンプルをご覧ください。

次のステップ