中小企業向けの最新データ ウェアハウス

Azure Data Lake
Azure SQL データベース
Azure Synapse Analytics
Dynamics 365
Microsoft Power Platform

このワークロードの例は、小規模企業 (SMB) が現在の予算とスキルセットを過度に拡張することなく、レガシ データ ストアを最新化し、ビッグ データ ツールと機能を探索できるいくつかの方法を示しています。 これらのエンド ツー エンドの Azure データ ウェアハウジング ソリューションは、Azure Machine Learning、Microsoft Power Platform、Microsoft Dynamics、その他の Microsoft テクノロジと簡単に統合します。

Architecture

Diagram that shows how SMBs can modernize legacy data stores.

このアーキテクチャの Visio ファイルをダウンロードします。

SMB のレガシ データ ウェアハウスには、いくつかの種類のデータが含まれている場合があります。

  • 非構造化データ (ドキュメントやグラフィックなど)
  • 半構造化データ (ログ、CSV、JSON、XML などのファイル)
  • 構造化されたリレーショナル データ (抽出、変換、読み込み (ETL) および抽出、読み込み、変換 (ELT) アクティビティにストアド プロシージャを使用するデータベースなど)

データフロー

次のデータ フローには、選択したデータ型のインジェストが示されています。

  1. Azure Synapse Analytics パイプラインでは、レガシ データ ウェアハウスが Azure に取り込まれます。

    • このパイプラインにより、移行または部分的にリファクタリングされたレガシ データベースおよび SSIS パッケージのフローを Azure SQL Database に統合します。 このリフトアンドシフト アプローチは、実装が最も速く、しかもオンプレミスの SQL ソリューションから最終的な Azure のサービスとしてのプラットフォーム (PaaS) にスムーズに移行できます。 リフトアンドシフト後、データベースを段階的に最新化できます。

    • パイプラインではさらに、非構造化、半構造化、構造化のデータを Azure Data Lake Storage に渡して、他のソースと共にストレージを集中管理したり、分析を行ったりすることができます。 データを融合することで、単にデータをリプラットフォームするよりも多くのビジネス上の利点が得られる場合は、このアプローチを使用してください。

  2. Microsoft Dynamics データ ソースを使用すると、Synapse Serverless 分析ツールを使って、拡張データセットに一元化された BI ダッシュボードを構築できます。 融合され、処理されたデータを Dynamics および Power BI に戻し、さらに分析することができます。

  3. ストリーミング ソースからのリアルタイム データは、Azure Event Hubs を介してシステムに入力することもできます。 リアルタイムのダッシュボード要件を持つお客様の場合、Azure Stream Analytics を使用すると、このデータをすぐに分析できます。

  4. データを、集中管理された Data Lake に入力して、さらに分析、保存、およびレポート作成を行うこともできます。

  5. Azure Synapse Analytics ワークスペースでは、サーバーレス分析ツールを使用できます。 これらのツールは、サーバーレス SQL プールまたは Apache Spark コンピューティングの機能を使って、Data Lake Storage Gen2 のデータを処理します。 サーバーレス プールは、オンデマンドで利用でき、プロビジョニングされたリソースを必要としません。

    サーバーレス プールは、次の場合に最適です。

    • T-SQL 形式でのアドホック データ サイエンス探索。
    • データ ウェアハウス エンティティの初期プロトタイピング。
    • パフォーマンスの遅れを許容できるシナリオで、たとえば Power BI でコンシューマーが使用できるビューの定義。

Azure Synapse は、Azure Machine Learning など、融合されたデータセットの潜在的なコンシューマーと緊密に統合されます。 他のコンシューマーには、Power Apps、Azure Logic Apps、Azure Functions アプリ、および Azure App Service Web アプリが含まれます。

コンポーネント

  • Azure Synapse Analytics は、データ統合、エンタープライズ データ ウェアハウジング、ビッグ データ分析を組み合わせた分析サービスです。 このソリューションの内容:

  • Azure SQL Database は、クラウド向けに構築されたインテリジェントでスケーラブルなリレーショナル データベース サービスです。 このソリューションの SQL Database では、エンタープライズ データ ウェアハウスが保持され、ストアド プロシージャを使用する ETL または ELT アクティビティが実行されます。

  • Azure Event Hubs は、リアルタイムのデータ ストリーミング プラットフォームおよびイベント取り込みサービスです。 Event Hubs を使用すると、どこからでもデータを取り込むことができ、Azure データサービスとシームレスに統合されます。

  • Azure Stream Analytics は、データをストリーミングするためのリアルタイムのサーバーレス分析サービスです。 Stream Analytics を使用すると、迅速で柔軟性のあるスケーラビリティ、エンタープライズレベルの信頼性と復旧、組み込みの機械学習機能が提供されます。

  • Azure Machine Learning は、データ サイエンス モデルの開発とライフサイクル管理のためのツールセットです。 Machine Learning は、Data Lake Storage Gen2 の融合されて処理されたデータを使用できる Azure および Microsoft のサービスの一例です。

代替

  • Azure IoT Hub は、Event Hubs に置き換わるか補完することができます。 選択するソリューションは、ストリーミング データのソース、およびレポート デバイスとの間の複製と双方向通信が必要かどうかによって異なります。

  • データ統合には、Azure Synapse パイプラインの代わりに Azure Data Factory を使用できます。 選択は、いくつかの要因によって異なります。

    • Azure Synapse パイプラインを使用すると、ソリューションの設計が簡素化され、単一の Azure Synapse ワークスペース内でのコラボレーションが可能になります。
    • Azure Synapse パイプラインでは、Azure Data Factory で利用可能な SSIS パッケージの再ホスティングはサポートされていません。
    • Synapse Monitor Hub では、Azure Synapse パイプラインを監視し、Azure Monitor では Data Factory を監視できます。

    Azure Synapse パイプラインと Data Factory の詳細および機能の比較については、「Azure Synapse Analytics と Azure Data Factory のデータ統合」を参照してください。

  • エンタープライズ データの保存に、SQL Database を使用する代わりに Synapse Analytics 専用 SQL プールを使用できます。 この記事と関連リソースのユース ケースと考慮事項を確認して、決定を行います。

シナリオの詳細

中小企業 (SMB) は、オンプレミスのデータ ウェアハウスをクラウド用に最新化する際、選択を迫られます。 将来の拡張性を考慮してビッグ データ ツールを導入することも、コスト効率、保守の容易さ、スムーズな移行を確保するために従来の SQL ベースのソリューションを維持することもできます。

ただし、ハイブリッド アプローチを使用すると、既存のデータ資産を簡単に移行できるだけでなく、一部のユース ケースにビッグ データ ツールとプロセスを追加することもできます。 SQL ベースのデータ ソースをクラウドで実行し続け、必要に応じて最新化を継続することができます。

このワークロードの例は、SMB が現在の予算とスキルセットを過度に拡張することなく、レガシ データ ストアを最新化し、ビッグ データ ツールと機能を探索できるいくつかの方法を示しています。 これらのエンド ツー エンドの Azure データ ウェアハウジング ソリューションにより、Azure を、Azure Machine Learning、Microsoft Power Platform、Microsoft Dynamics などの Microsoft のサービスやツールと簡単に統合できます。

考えられるユース ケース

いくつかのシナリオでは、このワークロードを活用できます。

  • SQL Server Integration Services (SSIS) パッケージを広範囲に使用して 1 TB 未満の従来のオンプレミスのリレーショナル データ ウェアハウスを移行し、ストアド プロシージャを調整する。

  • バッチ処理されたリアルタイムのAzure Data Lake ソースを使用して、既存の Dynamics または Power Platform の Dataverse データをメッシュ化する。

  • 革新的な手法を使って、一元化された Data Lake Storage Gen2 データと対話する。 このような手法としては、サーバーレス分析、ナレッジ マイニング、ドメイン間のデータ融合、エンドユーザー データ探索などがあります。

  • データ ウェアハウスを導入して運用を最適化する eコマース企業を設定する。

このソリューションは、次の場合には推奨されません。

  • 1 年以内に 1 TB を超えると推定されるデータ ウェアハウスのグリーンフィールド デプロイ。

  • 1 TB を超える、または 1 年以内にそのサイズに拡大すると予測されるオンプレミスのデータ ウェアハウスの移行。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

このシナリオには以下の考慮事項が適用されます。

可用性

SQL Database は、高可用性 (HA) およびディザスター リカバリー (DR) の要件を満たすことができる PaaS サービスです。 要件を満たす SKU を必ず選択してください。 ガイダンスについては、Azure SQL Database の高可用性に関するページを参照してください。

Operations

SQL Database では、SQL Server Management Studio (SSMS) を使用して、ストアド プロシージャなどのレガシの成果物を開発および保守します。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

Azure 料金計算ツールでの SMB データ ウェアハウジングのシナリオの価格サンプルを参照してください。 値を調整して、要件によるコストへの影響を確認できます。

  • SQL Database のコストは、選択したコンピューティングおよびサービス レベル、仮想コアとデータベース トランザクション ユニット (DTU) の数に基づきます。 例は、SQL Database でストアド プロシージャを実行する必要があるという前提に基づいて、プロビジョニングされたコンピューティングと 8 つの仮想コアを備えた単一のデータベースを示しています。

  • Data Lake Storage Gen2 の価格は、格納するデータの量とデータの使用頻度によって異なります。 サンプル価格には、1 TB の格納データが含まれており、さらに別のトランザクションの前提条件があります。 1 TB は、元のレガシ データベースのサイズではなく、データ レイクのサイズを意味します。

  • Azure Synapse パイプラインでは、データ パイプライン アクティビティの数、統合の実行時間、データ フロー クラスターのサイズ、実行と運用の料金に基づいてコストを計算します。 パイプラインのコストは、追加のデータ ソースおよび処理済みデータの量によって増加します。 例では、Azure でホストされる統合ランタイムで 1 時間ごとに 15 分間、1 つのデータ ソースがバッチ処理されることを前提としています。

  • Azure Synapse Spark プールの料金は、ノード サイズ、インスタンス数、稼働時間に基づきます。 例では、使用率が 1 週間に 5 時間から 1 か月に 40 時間までの 1 つの小さな計算ノードを前提としています。

  • Azure Synapse サーバーレス SQL プールの価格は、処理済みデータの TB 数に基づきます。 サンプルでは、1 か月に 50 TB が処理されることを前提としています。 この数字は、元のレガシ データベースのサイズではなく、データ レイクのサイズを意味しています。

  • Event Hubs については、レベル、プロビジョニングされたスループット ユニット数、受信したイグレス トラフィックに基づいて請求されます。 例では、標準レベルの 1 つのスループット ユニットのイベント数が 1 か月に 100 万件を超えることを前提としています。

  • Stream Analytics のコストは、プロビジョニングされたストリーミング ユニットの数に基づきます。 サンプルでは、1 か月に 1 つのストリーミング ユニットが使用されることを前提としています。

共同作成者

この記事は、Microsoft によって更新および保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

  • Galina Polyakova |シニア クラウド ソリューション アーキテクト

次のステップ