ビッグデータアーキテクチャ

2025-04-30

ビッグデータアーキテクチャは、従来のデータベースシステムでは大きすぎるデータや複雑なデータの取り込み、処理、分析を管理します。ビッグデータの領域に入るためのしきい値は、ツールとユーザーの機能によって組織によって異なります。一部の組織では数百ギガバイトのデータを管理し、他の組織は数百テラバイトを管理しています。ビッグデータセットを操作するためのツールが進化するにつれて、ビッグデータの定義は、データサイズのみに焦点を当てることから、高度な分析から得られる値を強調することに変わるのです。これらの種類のシナリオでは、大量のデータが含まれますが。

長年にわたって、データのランドスケープは変化してきました。データで実行できること、実行できると期待されることは変化しています。ストレージのコストは大幅に下がりましたが、データ収集の方法は拡大し続けます。一部のデータは急速なペースで到着し、継続的な収集と観察が必要です。他のデータは、より遅く届きますが、大きなまとまりで提供され、多くの場合、過去数十年分のデータとして提供されます。高度な分析の問題や、機械学習を解決する必要がある問題が発生する可能性があります。ビッグデータアーキテクチャは、これらの課題の解決に努めています。

ビッグデータソリューションには、通常、次の種類のワークロードが 1 つ以上含まれます。

保存されているビッグデータソースのバッチ処理
移動中のビッグデータのリアルタイム処理
ビッグデータの対話型探索
予測分析と機械学習

次のタスクを実行する必要がある場合は、ビッグデータアーキテクチャを検討してください。

従来のデータベースに対して大きすぎるボリュームにデータを格納して処理する
分析とレポートのために非構造化データを変換する
無制限のデータストリームをリアルタイムまたは低待機時間でキャプチャ、処理、分析する

ビッグデータアーキテクチャのコンポーネント

次の図は、ビッグデータアーキテクチャの論理コンポーネントを示しています。個々のソリューションには、この図のすべての項目が含まれていない場合があります。

ほとんどのビッグデータアーキテクチャには、次のコンポーネントの一部またはすべてが含まれます。

データソース: すべてのビッグデータソリューションは、1 つ以上のデータソースから始まります。たとえば、次のようになります。
- リレーショナルデータベースなどのアプリケーションデータストア。
- Web サーバーログファイルなど、アプリケーションによって生成される静的ファイル。
- モノのインターネット (IoT) デバイスなどのリアルタイムデータソース。
データストレージ: バッチ処理操作のデータは、通常、さまざまな形式で大量の大きなファイルを保持できる分散ファイルストアに格納されます。この種のストアは、多くの場合、 データレイクと呼ばれます。このストレージを実装するためのオプションには、Azure Data Lake Store、Azure Storage の BLOB コンテナー、または Microsoft Fabric の OneLake があります。
バッチ処理: データセットは大きいため、ビッグデータソリューションでは、多くの場合、実行時間の長いバッチジョブを使用してデータファイルを処理し、分析のためにデータをフィルター処理、集計、準備します。通常、これらのジョブには、ソースファイルの読み取り、処理、新しいファイルへの出力の書き込みが含まれます。次のオプションを使用できます。
- Azure Data Lake Analytics で U-SQL ジョブを実行します。
- Azure HDInsight Hadoop クラスターで Hive、Pig、またはカスタム MapReduce ジョブを使用します。
- HDInsight Spark クラスターで Java、Scala、または Python プログラムを使用します。
- Azure Databricks ノートブックで Python、Scala、または SQL 言語を使用します。
- Fabric ノートブックで Python、Scala、または SQL 言語を使用します。
リアルタイムメッセージインジェスト: ソリューションにリアルタイムソースが含まれている場合、アーキテクチャでは、ストリーム処理のためにリアルタイムメッセージをキャプチャして格納する必要があります。たとえば、処理のために受信メッセージを収集する単純なデータストアを作成できます。ただし、多くのソリューションでは、メッセージのバッファーとして機能し、スケールアウト処理、信頼性の高い配信、およびその他のメッセージキューセマンティクスをサポートするために、メッセージインジェストストアが必要です。ストリーミングアーキテクチャのこの部分は、多くの場合、 ストリームバッファリングと呼ばれます。オプションとして、Azure Event Hubs、Azure IoT Hub、Kafka などがあります。
ストリーム処理: ソリューションは、リアルタイムメッセージをキャプチャした後、分析のためにデータをフィルター処理、集計、および準備することによって処理する必要があります。その後、処理されたストリームデータが出力シンクに書き込まれます。
- Azure Stream Analytics は、無制限のストリームで動作する継続的に実行される SQL クエリを使用するマネージドストリーム処理サービスです。
- HDInsight クラスターまたは Azure Databricks では、Spark ストリーミングなどのオープンソースの Apache ストリーミングテクノロジを使用できます。
- Azure Functions は、軽量ストリーム処理タスクに最適なイベントドリブンコードを実行できるサーバーレスコンピューティングサービスです。
- Fabric では、イベントストリームと Spark 処理を使用したリアルタイムデータ処理がサポートされています。
機械学習： バッチ処理またはストリーム処理から準備されたデータを分析するには、機械学習アルゴリズムを使用して、結果を予測したり、データを分類したりするモデルを構築できます。これらのモデルは、大規模なデータセットでトレーニングできます。結果のモデルを使用して、新しいデータを分析し、予測を行うことができます。

Azure Machine Learning を使用してこれらのタスクを実行します。 Machine Learning には、モデルを構築、トレーニング、デプロイするためのツールが用意されています。また、Azure AI サービスの事前構築済み API を使用して、ビジョン、音声、言語、意思決定タスクなどの一般的な機械学習タスクを行うこともできます。
分析データストア: 多くのビッグデータソリューションは、分析のためにデータを準備し、分析ツールがクエリを実行できる構造化された形式で処理されたデータを提供します。これらのクエリを処理する分析データストアは、Kimball スタイルのリレーショナルデータウェアハウスにすることができます。ほとんどの従来のビジネスインテリジェンス (BI) ソリューションでは、この種類のデータウェアハウスが使用されます。または、HBase などの待機時間の短い NoSQL テクノロジや、分散データストア内のデータファイルに対するメタデータ抽象化を提供する対話型 Hive データベースを使用してデータを表示することもできます。
- Azure Synapse Analytics は、大規模なクラウドベースのデータウェアハウス用のマネージドサービスです。
- HDInsight では、対話型 Hive、HBase、Spark SQL がサポートされます。これらのツールは、分析用のデータを提供できます。
- Fabric には、SQL データベース、データウェアハウス、レイクハウス、イベントハウスなど、さまざまなデータストアが用意されています。これらのツールは、分析用のデータを提供できます。
- Azure には、Azure Databricks、Azure Data Explorer、Azure SQL Database、Azure Cosmos DB などの他の分析データストアが用意されています。
分析とレポート: ほとんどのビッグデータソリューションでは、分析とレポートを通じてデータに関する分析情報を提供するよう努めています。ユーザーがデータを分析できるようにするために、アーキテクチャには、多次元オンライン分析処理キューブや Azure Analysis Services の表形式データモデルなどのデータモデリングレイヤーが含まれる場合があります。また、Power BI または Excel のモデリングおよび視覚化テクノロジを使用して、セルフサービス BI をサポートする場合もあります。

データサイエンティストまたはデータアナリストは、対話型のデータ探索を通じて分析およびレポートを作成することもできます。これらのシナリオでは、多くの Azure サービスが Jupyter などの分析ノートブックをサポートし、これらのユーザーが Python または Microsoft R で既存のスキルを使用できるようにします。大規模なデータ探索では、スタンドアロンまたは Spark で Microsoft R Server を使用できます。 Fabric を使用してデータモデルを編集することもできます。データモデルは、データモデリングと分析の柔軟性と効率を提供します。
オーケストレーション： ほとんどのビッグデータソリューションは、ワークフローにカプセル化された繰り返しのデータ処理操作で構成されています。この操作では、次のタスクを実行します。
- ソースデータの変換
- 複数のソースとシンク間でデータを移動する
- 処理されたデータを分析データストアに読み込む
- 結果をレポートまたはダッシュボードに直接プッシュする
これらのワークフローを自動化するには、Azure Data Factory、Fabric、Apache Oozie、Apache Sqoop などのオーケストレーションテクノロジを使用します。

ラムダアーキテクチャ

大規模なデータセットを操作する場合、クライアントが必要とする種類のクエリの実行に時間がかかる場合があります。これらのクエリをリアルタイムで実行することはできません。また、多くの場合、データセット全体で並列に動作する MapReduce などのアルゴリズムが必要です。クエリ結果は生データとは別に格納され、さらにクエリを実行するために使用されます。

この方法の欠点の 1 つは、待機時間が発生することです。処理に数時間かかる場合、クエリは数時間前の結果を返す可能性があります。理想的には、精度が低下する可能性のある結果をリアルタイムで取得し、これらの結果をバッチ分析の結果と組み合わせる必要があります。

ラムダアーキテクチャでは、データフロー用の 2 つのパスを作成することで、この問題に対処します。システムに入ってくるすべてのデータは、次の 2 つのパスを経由します。

バッチレイヤー (コールドパス) は、すべての受信データを生形式で格納し、データに対してバッチ処理を実行します。この処理の結果は、バッチビューとして格納されます。
速度レイヤー (ホットパス) は、リアルタイムでデータを分析します。このレイヤーは、精度と引き換えに待機時間が短くなるように設計されています。

バッチレイヤーは、効率的なクエリを実行するためにバッチビューのインデックスを作成する サービスレイヤー にフィードされます。速度レイヤーは、最新のデータに基づく増分更新でサービスレイヤーを更新します。

ホットパスに流れ込むデータは、速度レイヤーが課す待機時間の要件により、迅速に処理する必要があります。迅速な処理により、データをすぐに使用できる状態が確保されますが、不正確性が生じる可能性があります。たとえば、多数の温度センサーがテレメトリデータを送信する IoT シナリオを考えてみましょう。速度レイヤーは、受信データのスライディング時間枠を処理する場合があります。

コールドパスに流れ込むデータは、同じ低待機時間要件の対象ではありません。コールドパスでは、大規模なデータセット間で高い精度の計算が提供されますが、時間がかかる場合があります。

最終的に、ホットパスとコールドパスは分析クライアントアプリケーションに収束します。クライアントは、タイムリーに表示する必要があるが、正確でない可能性があるデータをリアルタイムで表示する必要がある場合は、ホットパスから結果を取得します。それ以外の場合、クライアントはコールドパスから結果を選択して、より短い時間で正確なデータを表示します。言い換えると、ホットパスは、比較的短い時間枠のデータを持ちます。その後、コールドパスのより正確なデータで結果を更新することができます。

バッチレイヤーに格納されている生データは不変です。受信データは既存のデータに追加され、前のデータは上書きされません。特定のデータムの値に対する変更は、新しいタイムスタンプ付きイベントレコードとして格納されます。タイムスタンプ付きイベントレコードを使用すると、収集されたデータの履歴全体を任意の時点で再計算できます。システムの進化に応じて新しいビューを作成できるため、元の生データからバッチビューを再計算する機能が重要です。

カッパアーキテクチャ

ラムダアーキテクチャの欠点は、その複雑さです。処理ロジックは、異なるフレームワークを介して、コールドパスとホットパスの 2 つの異なる場所に表示されます。このプロセスにより、計算ロジックが重複し、両方のパスのアーキテクチャが複雑に管理されます。

Kappa アーキテクチャは、ラムダアーキテクチャに代わるアーキテクチャです。ラムダアーキテクチャと同じ基本的な目標がありますが、すべてのデータはストリーム処理システムを介して 1 つのパスを通過します。

ラムダアーキテクチャのバッチレイヤーと同様に、イベントデータは不変であり、データのサブセットではなく、そのすべてが収集されます。データは、イベントのストリームとして、分散型のフォールトトレラントな統合ログに取り込まれます。これらのイベントには順序が付けられ、イベントの現在の状態は、新しいイベントが追加されることでのみ変更されます。ラムダアーキテクチャの速度レイヤーと同様に、すべてのイベント処理が入力ストリームで実行され、リアルタイムビューとして保持されます。

データセット全体を再計算する必要がある場合 (ラムダアーキテクチャでのバッチレイヤーの処理と同等)、ストリームを再生できます。通常、このプロセスでは並列処理を使用して、タイムリーに計算を完了します。

レイクハウスのアーキテクチャ

Data Lake は、構造化データ (データベーステーブル)、半構造化データ (XML ファイル)、非構造化データ (イメージとオーディオファイル) を格納する一元化されたデータリポジトリです。このデータは生の元の形式であり、定義済みのスキーマは必要ありません。 Data Lake は大量のデータを処理できるため、ビッグデータの処理と分析に適しています。データレイクでは、低コストのストレージソリューションが使用されるため、コスト効率に優れた方法で大量のデータを格納できます。

データウェアハウスは、レポート、分析、BI の目的で構造化された半構造化データを格納する一元化されたリポジトリです。データウェアハウスは、データの一貫した包括的なビューを提供することで、情報に基づいた意思決定を行うのに役立ちます。

Lakehouse アーキテクチャは、データレイクとデータウェアハウスの最適な要素を組み合わせたものになります。このパターンは、構造化データと非構造化データの両方をサポートする統合プラットフォームを提供することを目的としています。これにより、効率的なデータ管理と分析が可能になります。通常、これらのシステムでは、生データと処理済みデータの両方を格納するために、Parquet や Optimized Row Columnar などのオープン形式の低コストのクラウドストレージが使用されます。

レイクハウスアーキテクチャの一般的なユースケースは次のとおりです。

統合分析: 履歴データ分析とリアルタイムデータ分析の両方に単一のプラットフォームを必要とする組織に最適
機械学習： データ管理機能を統合することで、高度な分析と機械学習のワークロードをサポートします
データガバナンス: 大規模なデータセット全体でコンプライアンスとデータ品質を確保する

IoTの

IoT は、インターネットに接続し、データを送受信するすべてのデバイスを表します。 IoT デバイスには、PC、携帯電話、スマートウォッチ、スマートサーモスタット、スマート冷蔵庫、コネクテッド自動車、心臓モニタリングインプラントが含まれます。

接続されているデバイスの数は毎日増え、生成されるデータの量も増えます。このデータは、多くの場合、大きな制約があり、場合によっては待機時間が長い環境で収集されます。その他のケースでは、数千または数百万のデバイスが待機時間の短い環境からデータを送信します。これには、迅速なインジェストと処理が必要です。これらの制約と一意の要件を適切に処理する計画を立てる必要があります。

イベントドリブンアーキテクチャは、IoT ソリューションにとって重要です。次の図は、IoT の論理アーキテクチャを示しています。この図は、アーキテクチャのイベントストリーミングコンポーネントを強調しています。

クラウドゲートウェイは、信頼性の高い低待機時間メッセージングシステムを介して、クラウド境界でデバイスイベントを取り込みます。

デバイスは、クラウドゲートウェイまたは フィールドゲートウェイを介してイベントを直接送信する場合があります。フィールドゲートウェイは特殊なデバイスまたはソフトウェアで、通常はデバイスと共に配置され、イベントを受信してクラウドゲートウェイに転送します。フィールドゲートウェイは、フィルター処理、集計、またはプロトコル変換関数の実行を含む未加工のデバイスイベントを前処理することもできます。

インジェスト後、イベントは、ストレージなどの宛先にデータをルーティングしたり、分析やその他の処理を実行したりできる 1 つ以上の ストリームプロセッサ を通過します。

一般的な処理の種類は次のとおりです。

アーカイブまたはバッチ分析のためにコールドストレージにイベントデータを書き込む。
ホットパス分析。イベントストリームをほぼリアルタイムで分析して、異常を検出したり、ローリングタイムウィンドウでのパターンを認識したり、ストリームで特定の条件が発生したときにアラートをトリガーしたりします。
通知やアラームなど、デバイスからの特殊な非テレメトリメッセージを処理。
機械学習。

前の図では、灰色のボックスは、イベントストリーミングに直接関連しない IoT システムのコンポーネントです。これらは、完成度を高める図に含まれています。

デバイスレジストリは、プロビジョニングされたデバイスのデータベースであり、デバイス ID と通常はデバイスメタデータ (場所など) を含みます。
プロビジョニング API は、新しいデバイスをプロビジョニングおよび登録するための一般的な外部インターフェイスです。
一部の IoT ソリューションでは 、コマンドおよび制御メッセージ をデバイスに送信できます。

次の方法で共有

ビッグ データ アーキテクチャ

ビッグ データ アーキテクチャのコンポーネント

ラムダ アーキテクチャ

カッパ アーキテクチャ

レイクハウスのアーキテクチャ

IoTの

次のステップ

関連リソース

フィードバック

その他のリソース

ビッグデータアーキテクチャ

ビッグデータアーキテクチャのコンポーネント

ラムダアーキテクチャ

カッパアーキテクチャ