Azure Synapse サーバーレス SQL プールを使用した論理データ ウェアハウス

Azure Cosmos DB
Azure Data Factory
Azure Data Lake
Azure Synapse Analytics
Power BI

ソリューションのアイデア

このアーティクルはソリューションのアイデアです。 このコンテンツにさらに多くの情報 (想定されるユース ケース、代替サービス、実装に関する考慮事項、価格ガイダンスなど) の掲載をご希望の方は、GitHub のフィードバックでお知らせください。

論理データ ウェアハウス (LDW) パターンでは、データ レイクまたはデータベースに格納されているデータの上に軽量の仮想化リレーショナル レイヤーが配置されます。 この仮想化レイヤーにより、データ ウェアハウスへのアクセスが提供されます。データ移動は必要ありません。 このソリューションを使用すると、オンライン トランザクション処理 (OLTP) データとデータ レイクからの分析データを組み合わせて、ビジネス インテリジェンス (BI) と分析ワークロードにサービスを提供するための、複雑さを抑えた待ち時間の短い方法が実現できます。

Apache Spark™ は、Apache Software Foundation の米国およびその他の国または地域における登録商標です。 このマークの使用は、Apache Software Foundation による保証を意味するものではありません。

アーキテクチャ

手順の説明に従って、左から右へのデータ フローを示す図。

"この記事のすべての図の PowerPoint ファイルをダウンロードします。"

データフロー

  1. Azure Data Factory により、ソース システムからのデータがエンタープライズ データ レイクに統合されます。

  2. デバイスとセンサーのデータも、エッジ デバイスから Azure IoT Hub 経由でクラウドにストリーミングされます。 Azure Stream Analytics によってデータが処理され、エンタープライズ データ レイクに送信されます。

  3. Azure Synapse サーバーレス SQL プールによって、Azure Synapse ワークスペースのサーバーレス SQL プール オンデマンド エンドポイントを介してアクセスできる論理テーブルとビューを持つ LDW が定義されます。

  4. Azure Synapse Link for Azure Cosmos DB によって、Azure Synapse サーバーレス SQL プールを介してリアルタイム トランザクション データに対してクエリが実行されます。 このデータは、エンタープライズ データ レイクからのコールド バッチおよびホット ストリーミング データと結合され、論理ビューが作成されます。

  5. レポート、BI、その他の分析アプリケーションは、Azure Synapse ワークスペース サーバーレス SQL エンドポイントを使用して LDW データとビューにアクセスします。

    Note

    Azure Synapse ワークスペース サーバーレス SQL エンドポイントには、SQL Server への表形式データ ストリーム (TDS) 接続をサポートする任意のツールまたはサービスからアクセスできます。

コンポーネント

  • Azure Synapse Analytics は、データ統合、エンタープライズ データウェア ハウス、およびビッグ データ分析が 1 つにまとめられた無制限の分析サービスです。
  • Data Factory により、クラウド規模のデータ統合とデータ フロー オーケストレーションが提供されます。
  • IoT Hub を使用すると、モノのインターネット (IoT) アプリケーションとデバイス間の安全で信頼性の高い通信が可能になります。
  • Stream Analytics により、サーバーレスのリアルタイム ストリーミング分析パイプラインが提供されます。
  • Azure Data Lake Storage により、スケーラブルでコスト効率の高いクラウド ストレージが提供されます。
  • Azure Cosmos DB は、最新のアプリ開発に対応するフル マネージドの NoSQL データベースです。

シナリオの詳細

LDW と Azure Synapse サーバーレス SQL プールを使用すると、コールド バッチ データ、ホット ストリーミング データ、ライブ トランザクション データを 1 つの T-SQL クエリまたはビュー定義に結合できます。

このソリューションを使用すると、複雑でコストが高く、待機時間が発生しやすい ETL (抽出、変換、読み込み) パイプラインを介したデータ移動を回避できます。 LDW の概念はデータ レイクハウスに似ていますが、Azure Synapse Analytics を使用した LDW には、ハイブリッド トランザクション/分析処理 (HTAP) のサポートが含まれています。 HTAP は、Azure Synapse サーバーレス SQL プールを使用して、Azure Cosmos DB に格納されている OLTP データに対してクエリを実行します。

Azure Synapse Analytics LDW は、すべての Azure Synapse ワークスペースで利用できるサーバーレス SQL プールに基づいています。 OPENROWSET 関数の拡張バージョンを使用すると、サーバーレス SQL プールが Data Lake Storage 内のデータにアクセスできます。

このデータ アクセスにより、製品、顧客、販売トランザクションなどの論理エンティティを表すデータ ファイルのコレクションに対するテーブルやビューなどのリレーショナル データベース オブジェクトを作成できます。 標準の SQL Server エンドポイントを使用して接続する BI ツールでは、これらの論理エンティティをディメンションおよびファクト テーブルとして使用できます。

Azure Synapse Analytics サーバーレス SQL プールを使用した LDW 実装の横に、LDW 概念設計を並べて比較したダイアグラム。

Azure Synapse Link for Azure Cosmos DB を介して Azure Cosmos DB などのトランザクション データ ストアにアクセスする機能により、これらの機能が拡張されます。 HTAP アーキテクチャを使用して OLTP データにアクセスすると、ライブ トランザクションを妨げることなく即時に更新できます。

Azure Synapse Analytics サーバーレス SQL プールを使用したレポート レイヤーへの外部データ フローを示すダイアグラム。

各 Azure Synapse ワークスペースには、オンデマンド SQL エンドポイントが含まれています。 このエンドポイントを使用すると、SQL Server の管理者と開発者は使い慣れた環境を使用して、Azure Synapse サーバーレス SQL プールで定義された LDW を操作できます。

次のスクリーンショットは、Azure Synapse サーバーレス SQL プールに接続された SQL Server Management Studio (SSMS) を示しています。

Azure Synapse SQL Server エンドポイントに接続されている SSMS を示すスクリーンショット。

Azure Synapse サーバーレス SQL プールでは、次のファイル形式がサポートされています。

  • CSV、TSV、TXT などの区切りテキスト
  • JSON
  • Parquet

Azure Synapse サーバーレス SQL プールでは、Delta Lake 形式もサポートされています。 このサポートにより、"Spark でのエンリッチ、SQL での提供" などのパターンが可能になます。ここで、Azure DatabricksAzure Synapse エンジニア データの Apache Spark プールなどの Apache Spark™ サービスがデータ レイクでキュレーションされたデータセットを作成します。 これらのデータセットを物理データ ウェアハウスに読み込む代わりに、データ レイク上に LDW を定義して、レポート用のモデル/サーブ レイヤーを提供できます。

Azure Synapse Analytics サーバーレス SQL プールを使用したレポート レイヤーへの外部データ フローを示すダイアグラム。

Azure Synapse サーバーレス SQL プールを使用した LDW は、データ レイクハウス パターンの実装です。 Databricks SQL を使用して LDW を実装することは、代替ソリューションです。 ただし、Databricks SQL には、Azure Synapse Link for Cosmos DB の HTAP 機能がありません。

考えられるユース ケース

このパターンは次のケースで役立ちます。

  • BI およびその他の分析ユース ケース用のデータ ウェアハウス サービス レイヤー。
  • データ レイク内の生データのアドホック探索。
  • データの書き込みに独自のコンピューティング リソースを必要としない、コスト効率の高いデータ レイクへのデータ ストリーミング。 論理データベース テーブル、ビュー、またはアドホック T-SQL クエリは、データ レイクからすぐにデータにアクセスできます。
  • Azure Cosmos DB のトランザクション データに即座にアクセスして、リアルタイムの集計パイプラインを構築したり、データ レイクに格納されている分析データと結合したりします。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

  • Jon Dobrzeniecki | シニア クラウド ソリューション アーキテクト

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ