ホット、ウォーム、コールド データ パスの戦略を設計する
従来、データはオンプレミスに格納されていました。 データの使用方法やそのライフサイクルについては考慮されませんでした。 クラウドでは、アクセス、ライフサイクル、その他のコンプライアンス要件に基づいてデータを格納できます。 このユニットでは、ホット、ウォーム、コールドの各データ パスを調べ、データの格納とコンピューティングのオプションを検討します。
ウォーム データ パス
ウォーム データ パスでは、システム内を流れるデータの分析がサポートされます。 データ ストリームは、準リアルタイムで処理されます。 データはウォーム ストレージに保存され、分析クライアントにプッシュされます。
- Azure プラットフォームには、イベントを処理するための多数のオプションが用意されており、Azure Stream Analytics は、人気のある選択肢です。
- Stream Analytics では、タンブリング、スライディング、ホッピング ウィンドウの複雑な分析を大規模に実行できます。 このサービスでは、ストリーム集計の実行と外部データ ソースの結合がサポートされています。 複雑な処理の場合は、Azure Event Hubs、Stream Analytics ジョブ、Azure 関数の複数のインスタンスをカスケードすることで、パフォーマンスを向上させることができます。
- ウォーム ストレージは、Azure SQL Database や Azure Cosmos DB など、Azure プラットフォーム上のさまざまなサービスで実装できます。
ビジネス シナリオ
IoT デバイス データの集計の一般的なシナリオを調べてみましょう。 デバイスはデータを送信する可能性がありますが、結果や分析データは生成されません。 この状況は、IoT データから分析情報の抽出を試みるという共通の課題を強調しています。 探しているデータは、受信したデータからは使用できません。 受信したデータを他のデータ ソースと組み合わせて、使用率を推測する必要があります。 次に、ルールを適用して、マシンが結果を生成しているかどうかを判断します。 また、ルールは、分析や結果に対する期待が異なる場合に、会社ごとに変更されることがあります。
コールド データ パス
ウォーム データ パスは、時間経過に伴うパターンを検出するためのストリーム処理が行われる場所です。 ただし、過去のある期間の使用率を計算する必要がある場合があります。 また、別のピボットと集計が必要になることもあり、これらの結果をウォーム パスの結果とマージして、ユーザーに統合ビューを表示する必要があります。 コールド データ パスは、これらのタスクを実行するのに役立ちます。
- コールド データ パスは、システムの長期的なビューを提供するバッチ レイヤーとサービス レイヤーで構成されます。
- バッチ レイヤーは、事前計算された集計ビューを作成して、長期にわたって高速なクエリ応答を可能にします。 Azure プラットフォームには、このレイヤーにさまざまなテクノロジ オプションが用意されています。
- コールド パスにはソリューションの長期的なデータ ストアが含まれており、Azure Storage は一般的なアプローチです。 Azure Storage には、Azure BLOB (オブジェクト)、Azure Data Lake Storage Gen2、Azure Files、Azure キュー、Azure テーブルが含まれます。
- コールド ストレージには、BLOB、Data Lake Storage Gen2、Azure テーブル、またはそれらの組み合わせを使用できます。
- 大量の非構造化データを格納するには、Blob Storage、Azure Files、または Azure Data Lake Storage Gen2 が最適なオプションです。 コールド パス ストレージは、IoT アプリケーションで受信した未処理のデータを含む元のメッセージに最適です。
ビジネス シナリオ
Tailwind Traders の Web サイトの対話式操作に関する機械学習モデルを時系列で構築する必要があるシナリオを調べます。 データ移動を自動化し、データ変換を実行する必要があります。 このシナリオでは、Azure Data Factory は、これらの要件を満たすためにコールド パスのサービス レイヤーにバッチ ビューを作成するための優れたソリューションです。 クラウドベースのマネージド データ統合サービスを通じて、データの移動と変換を制御して自動化するデータ主導型のワークフローをクラウドに作成することができます。 Azure HDInsight Hadoop、Azure Spark、Azure Databricks などのサービスを使用して、データを処理および変換できます。 機械学習モデルを構築し、分析クライアントでそれを使用できます。
ホット データ パス
ホット データ パスは、通常、リアルタイムでデータを処理または表示するために使用されます。 このパスは、リアルタイムのアラートとストリーミング操作に使用されます。 ホット パスでは、待機時間の影響を受けやすいデータ結果を数秒以内に準備する必要があり、データは分析クライアントで迅速に使用できるように送られます。
ビジネス シナリオ
Tailwind Traders 社は、顧客ポータルのデータ分析を実装したいと考えています。 同社では、ストリーミング データを収集し、管理者、カスタマー アシスタント、ポータル ユーザーにリアルタイム アラートを提供する必要があります。 このシナリオに最適なのは、ホット パスです。 データは、ユーザーが入力したり、顧客が表示したりするときに収集できます。 データは、迅速な分析とフォローアップアクションのために、準リアルタイムで管理者に配信できます。
データ パスを比較する
次の表は、3 つのパス ソリューションのシナリオを比較したものです。 シナリオを確認し、Tailwind Traders に必要なソリューションを検討します。
シナリオ | パス ソリューション |
---|---|
頻繁に変更されるデータ要件の柔軟なサポート。 リアルタイムでのデータ処理と表示が可能。 | ホット データ パス |
コンプライアンスや法的な理由で保存されているデータなど、ほとんど使用されないデータをサポート。 長期的な分析とバッチ処理のためのデータの使用が可能. | コールド データ パス |
最新のデータ サブセットを格納または表示。 小規模な分析とバッチ処理のためにデータの使用が可能. | ウォーム データ パス |