Azure Data Explorer のしくみ

[アーティクル]
10/02/2023

Azure Data Explorer は、テレメトリ、ログ、イベント、トレース、時系列データを取り込んでクエリを実行するための比類のないパフォーマンスを提供します。最適化されたストレージ形式、インデックスを備え、高度なデータ統計を使用して、効率的なクエリ計画とジャストインタイムコンパイルクエリ実行を実現します。

ストレージとコンピューティング

Azure Data Explorerでは、ストレージリソースとコンピューティングリソースが分離されます。永続データはAzure Blob Storageに存在しますが、コンピューティングリソースは一時データを格納したり、永続ストレージのキャッシュとして機能したりする場合があります。

この分離には、次の利点があります。

ストレージとコンピューティングリソースの独立したスケールアウト。
複数のコンピューティングクラスター間で同一のデータに対するアクセシビリティ。詳細については、「データ共有」を参照してください。
SKU の最適化。詳細については、「クラスターの SKU を選択する」を参照してください。

データストレージ

Azure Data Explorerは、取り込まれたすべてのデータをエクステントまたはデータシャード (ターゲットテーブルの水平スライス) にパーティション分割します。エクステントは、1 つのレコードから始めることができます。データがテーブルに蓄積されると、Azure Data Explorerは、何百万ものレコードを含むように拡張されるまでエクステントを自動的にマージします。各エクステントは、他のエクステントとは無関係にエンコードされ、インデックスが作成されます。この機能は、インジェストスループットの線形スケーリングに貢献します。

エクステントはクラスターノード間で均等に分散され、ローカル SSD とメモリの両方にキャッシュされます。このディストリビューションにより、高度に分散された並列クエリを準備して実行する能力が向上します。

データストレージの詳細については、「エクステントの概要」を参照してください。

注意

Azure Data Explorerでは、テーブルスキーマやポリシーオブジェクトなどの重要なメタデータも保持されます。ポリシーの一覧については、「ポリシーの概要」を参照してください。

データキャッシュ

Azure Data Explorerには、最も関連性の高いデータが CPU にできるだけ近い状態でキャッシュされるようにするための複数階層データキャッシュシステムがあります。キャッシュシステムはエクステントの不変性に依存し、圧縮データと完全に連動します。クエリのパフォーマンスを向上させるために、データは RAM でも圧縮されたままであり、クエリに必要な場合にのみ圧縮解除されます。

キャッシュの詳細については、「キャッシュポリシー」を参照してください。

テキストのインデックス作成

Azure Data Explorerは、データが取り込まれると、フリーテキスト (文字列) 列と JSON に似た (動的) 列のインデックスを効率的に作成するように設計されています。インデックスは、データをスキャンせずにインデックスに基づいてクエリの一部を評価できるようにする粒度レベルを維持します。

マージによるエクステントの継続的なバックグラウンド最適化により、圧縮とインデックス作成が向上し、効率的なストレージと低いクエリ待機時間が確保されます。エクステントが特定のサイズに達すると、インデックスのみがマージされ、効率を損なうことなくクエリのパフォーマンスが向上します。

エクステントとインデックスのマージの詳細については、「マージポリシー」を参照してください。

行ストア

Azure Data Explorer では、行ストアと呼ばれる中間ストレージソリューションが提供されます。行ストアを使用すると、データの小さな部分を効率的に取り込み、このデータをクエリですぐに使用できるようになります。クラスターでストリーミングインジェストを有効にすると、データは最初に行ストアに取り込まれた後、列ストアエクステントに移動されます。

詳細については、「バッチ処理とストリーミングインジェスト」を参照してください。

列の圧縮

Azure Data Explorerでは、データが圧縮された状態で維持されるため、データの格納と処理に必要なメモリの量が削減されます。この動作により、クエリのパフォーマンスが向上し、システムリソースをより効率的に使用できるようになります。

Azure Data Explorerでは、データを並べ替えて圧縮を改善する垂直方向の圧縮を回避します。これは、フリーテキストまたは半構造化データのシナリオでの CPU コストが高いためです。代わりに、主要なクエリパターンを持つシナリオに適したデータの並べ替え順序を指定できます。このトレードオフにより、クエリの迅速なデータ可用性が優先されます。

データの並べ替え順序の指定の詳細については、「行の順序ポリシー」を参照してください。

分散データクエリ

Azure Data Explorerでは、大規模な非構造化データセットでの高速アドホック分析を目的とした分散データクエリテクノロジが使用されます。このテクノロジの主な機能は次のとおりです。

クエリによって生成された一時データは、集約された RAM に格納されます
関連するエクステントはクエリプランでマークされ、分離スナップショット提供されます
高速で効率的なクエリは、短い既定のタイムアウトで優先順位が付けられます
クラスター間のデータ交換を最小限に抑えるクラスター間クエリのネイティブサポート
クエリは、すべてのエクステントのデータ統計を使用して、列エンコードの詳細に合わせて調整され、非常に効率的なマシンコードにコンパイルされます

注意

Azure Data Explorerは、Azure Data Explorer用にカスタムビルドされたKusto 照会言語 (KQL) を使用するように設計されています。さらに、 T-SQL がサポートされています。

Azure Data Explorer クラスターとデータベースを作成します

Azure Data Explorer のしくみ

ストレージとコンピューティング

データストレージ

データキャッシュ

テキストのインデックス作成

行ストア

列の圧縮

分散データクエリ

フィードバック

フィードバック

その他のリソース

Azure Data Explorer のしくみ

ストレージとコンピューティング

データ ストレージ

データ キャッシュ

テキストのインデックス作成

行ストア

列の圧縮

分散データ クエリ

関連コンテンツ

フィードバック

フィードバック

その他のリソース

データストレージ

データキャッシュ

分散データクエリ