HDInsight 対話型クエリ

7 分

対話型クエリは通常、表形式のデータがあり、SQL 構文を使用してすばやく質問し、対話型応答を取得する必要がある、コールドパスシナリオで実装されます。次の図では、すべての HDInsight コールドパスおよびホットパスソリューションのソリューションアーキテクチャを示し、サービス層の Hive LLAP を介して対話型クエリがどのように処理されるかを説明しています。データは Hive を介して取り込むことができ、対話型クエリは Hive LLAP を介して処理され、出力 put は Power BI などのダウンストリームアプリケーションに提供できます。

対話型クエリソリューションのアーキテクチャ

対話型クエリのアーキテクチャ

次は、対話型クエリのアーキテクチャを詳しく見ていきましょう。

対話型クエリユーザーは、Data Analytics Studio、Zeppelin Notebook、および Visual Studio Code など、ビジネスデータに対してクエリを実行するためのさまざまな ODBC または JDBC クライアントから選択することができます。クライアントで HiveQL クエリが送信された後、クエリは HiveServer (クエリの計画、最適化、およびセキュリティトリミングを担当) に到着します。 Hive は、クラスター内の分散ノード全体で分析タスクを分割することによって機能します。クエリはサブタスクに分割され、各サブタスクを処理するノードに送信されます。これらのサブタスクはさらに分割され、各タスクでは基になるビジネスデータストレージ層からデータを読み取ります。起動時間を回避する "常時接続" LLAP デーモンと、ストレージから取得されたデータを格納してすべてのノード間でデータを共有する共有メモリ内キャッシュが使用されるため、アーキテクチャが最適化されます。

Hive のアーキテクチャ

対話型クエリクラスターで利用されるソリッドステートドライブ (SSD) では、RAM と SSD の両方を、キャッシュで使用される巨大なメモリプールに結合します。このリソースの組み合わせにより、標準的なサーバープロファイルでは、4 倍以上のデータをキャッシュできるため、より大きなデータセットを処理し、より多くのユーザーがサポートされます。対話型クエリキャッシュでは、リモートストア (Azure Storage) の基になるデータの変更を認識します。そのため、基になるデータが変更され、ユーザーがクエリを発行した場合、更新されたデータはメモリに読み込まれ、追加のユーザー手順は必要ありません。

HDInsight 対話型クエリ

対話型クエリのアーキテクチャ

フィードバック