Azure データ エコシステムを理解する

完了

最新の分析機能を実装するには、多数のソースからデータを格納し、変換できるツールが必要です。 このユニットでは、Azure のデータ ストレージ ソリューション、データ インジェスト、およびデータ処理について説明します。

Relecloud の CEO に分析ソリューションを提示する前に、データ チームは、データの取得場所、データの形式、および受信データの予想されるスケールと頻度を明確に把握する必要があります。 構造化された要件収集を実施する前に、チーム内で主要なデータ概念を確認しましょう。

Azure のデータ ストレージ ソリューション

Azure ストレージ アカウントは、Azure 内で使用される基本的なストレージの種類です。 Azure Storage では、クラウド内のデータ オブジェクトとファイル システム サービスに対してスケーラブルなオブジェクト ストアが提供されます。

分析ソリューションでは、さまざまなソースのデータが結合され、ユーザー向けに準備されます。 データは、データ レイク ストアまたはデータベースにファイルとして格納できます。 Azure 内の基本ストレージの種類を理解することは、"データ エンジニア" にとって重要なことです。一方、"データ アナリスト" は、分析ツールを使って照会できる、処理済みの形式のデータを提供する、分析データ ストアについて理解する必要があります。

Overall data pipeline diagram beginning with data sources on the left and flowing through to analytics and reporting.

上の図の赤で示されている領域は、データ アナリストがデータを理解するために使用する、分析ソリューションの一部分を示しています。

Note

Azure でのデータ ストレージについてはこちらを、分析データ ストアに使用できるテクノロジの選択肢についてはこちらをご覧ください。

データの取り込みと処理

"データ インジェスト" は、データを取得してインポートし、すぐに使用したり、分析データ ストアに格納したりするプロセスです。

"データ処理" とは、プロセスを通じて生データを意味のある情報に変換することです。 システムへのデータの取り込み方法に応じて、各データ項目を受信時に処理することや、生データをバッファーに格納してグループで処理することができます。 受信したデータの処理は "ストリーミング" と呼ばれます。 グループ内のデータのバッファリングと処理は、"バッチ処理" と呼ばれます。

"バッチ処理" では、新しく受信したデータ要素はグループにまとめられます。 後で、グループ全体がバッチとして処理されます。 各グループが処理される正確なタイミングは、さまざまな方法で決まります。 たとえば、スケジュールされた時間間隔 (たとえば、1 時間ごと) に基づいてデータを処理したり、特定の量のデータを受信したときにトリガーしたりすることができます。 Relecloud の毎月の課金プロセスは、アカウント トランザクションが月単位で処理されて課金されるので、バッチ処理の良い例と言えます。

Note

バッチ処理は、最も一般的な種類のデータ処理であり、大規模なデータセットや、レガシ データ システムからのデータに最も適しています。 バッチ処理は、迅速な分析や意思決定には適していません。

"ストリーム処理" では、新しいデータを受信するたびに、それらのデータを処理します。 たとえば、データ インジェストは本質的にストリーミング プロセスです。

ストリーミングでは、リアルタイムでデータが処理されます。 バッチ処理とは異なり、次のバッチ処理間隔まで待機する必要はありません。データは一度にバッチで処理されるのではなく、個々の要素として処理されます。 ストリーミング データ処理は、新しい動的データが継続的に生成されるほとんどのシナリオで役立ちます。

不正対策部門では、不正行為や異常をリアルタイムに検出するために、ストリーム処理が使用されます。

Note

ストリーム処理は、リアルタイム分析を必要とするプロジェクトに最適であり、複雑な分析を必要とするプロジェクトには適していません。

通常、データ処理は分析データ ストアの上流で行われますが、適切な分析ソリューションを構築するには、データの取り込み方法と頻度をアナリストが理解することが重要です。