HDInsight の構成オプション

完了

HDInsight には、ストリーミング データとバッチ データの両方のシナリオを処理するために使用できるさまざまな OSS テクノロジが組み込まれています。これらは、ラムダ アーキテクチャで定義されている用語です。 このアーキテクチャ モデルでは、データのホット パスとデータのコールド パスがあります。 データのホット パスは、デバイス、センサー、またはアプリケーションによってリアルタイムで生成され、データ分析はほぼリアルタイムで実行されます。これは、ストリーミング データと呼ばれることがよくあります。 コールド データ パスは、データが (通常は他のデータ ストアから) バッチで移動される場合で、バッチ データと呼ばれることがよくあります。

Lambda solution architecture

HDInsight を実装するときに、データのストレージは準拠している Hadoop 分散ファイル システム (HDFS) 内に保持されます。 Azure では、Data Lake Gen2 は HDFS に準拠しているため、通常はデータ ストアとして使用されます。 ホット パスとコールド パスからのデータは、処理後にデータ レイクと呼ばれる一元的なデータ ストアに格納されます。 データ レイクそのものをコンパートメント化して、データの状態 (ランディング ゾーン、変換ゾーンなど)、アクセス要件 (ホット、ウォーム、コールド)、およびビジネス グループによって定義できるさまざまなコンパートメントにデータを保持することができます。 サービス レイヤーは、さまざまな種類のコンシューマーが使用できる形式でデータを保持する、データ レイクの最終的なコンパートメントです。

HDInsight のコンピューティングの側面は、ストリーミング データまたはバッチ データの処理に関するもので、HDInsight クラスターのプロビジョニング時に選択したクラスターの種類によって異なる場合があります。 HDInsight では、次の表に示すように、個々のクラスター オプションでサービスを提供しています。

クラスターの種類 説明
Apache Hadoop HDFS とシンプルな MapReduce プログラミング モデルを使用して、バッチ データを処理および分析するフレームワーク。
Apache Spark ビッグ データ分析アプリケーションのパフォーマンスを向上させるメモリ内処理をサポートする、オープンソースの並列処理フレームワーク。
HBase Hadoop 上に構築された NoSQL データベース。大量の非構造化データおよび半構造化データ (数十億行 x 数百万列の可能性もある) へのランダム アクセスと厳密な整合性が提供されます。
Apache Interactive Query 対話型で高速な Hive クエリのメモリ内キャッシュ。
Apache Kafka ストリーミング データ パイプラインおよびアプリケーションを構築するために使用されるオープンソースのプラットフォームです。 Kafka には、データ ストリームの発行とサブスクライブを可能にするメッセージ キュー機能も用意されています。

そのため、解決しようとしているビジネス ケースに合わせて、正しいクラスターの種類を選択することが重要です。 選択されているクラスターの種類に関係なく、次のような追加機能を提供するために、追加のオープンソース コンポーネントもクラスター内に追加されます。

Hadoop 管理

HCatalog - Hadoop のテーブルとストレージの管理レイヤー

Apache Ambari - Apache Hadoop クラスターの管理と監視を容易にする

Apache Oozie - Apache Hadoop ジョブを管理するためのワークフロー スケジューラ システム

Apache Hadoop YARN - リソース管理とジョブのスケジュール設定および監視を管理する

Apache ZooKeeper - 構成情報の保持、名前付け、分散同期の提供、およびグループ サービスの提供を行うための一元化されたサービス 

データ処理

Apache Hadoop MapReduce - 膨大な量のデータを処理するアプリケーションを簡単に作成するためのフレームワーク

Apache Tez - データを処理するためのアプリケーション フレームワーク

Apache Hive - SQL を使用して分散ストレージに存在する大規模なデータセットの管理を容易にする

データ分析

Apache Pig - MapReduce の上に大規模なデータセットを分析する抽象化レイヤーを提供する

Apache Phoenix - Hadoop で OLTP と運用分析を有効にする

Apache Mahout - 独自のアルゴリズムを作成するための代数フレームワーク

Note

このドキュメントの作成時点では、Azure Data Lake Gen1 と Azure Blob Storage は、HDInsight のデータ ストレージ層としてサポートされています。 Azure Data Lake Gen2 は、Spark と Hadoop に推奨されるストレージ プラットフォームであり、HBase の既定の選択であるため、このデータをこれに移行することを検討してください。