Azure で使用する分析データストアの選択

2025-05-23

ビッグデータアーキテクチャでは、多くの場合、分析ツールを使用してクエリを実行できる構造化形式で処理されたデータを提供する分析データストアが必要です。ホットパスデータとコールドパスデータの両方のクエリをサポートする分析データストアは、まとめて サービスレイヤーまたは データサービスストレージと呼ばれます。

サービスレイヤーは、ホットパスとコールドパスの両方から処理されたデータを処理します。ラムダアーキテクチャでは、サービスレイヤーは 2 つのレイヤーに分割されます。 速度サービス レイヤーには、増分処理されたデータが含まれています。 バッチ処理レイヤーには、バッチ処理された出力が含まれています。サービスレイヤーでは、待機時間が短いランダム読み取りを強力にサポートする必要があります。速度レイヤーのデータストレージでは、このストアにデータをバッチ読み込むと望ましくない遅延が発生するため、ランダム書き込みもサポートする必要があります。または、バッチレイヤーのデータストレージでは、ランダムな書き込みではなく、バッチ書き込みをサポートする必要があります。

すべてのデータストレージタスクに最適なデータ管理の選択肢は 1 つもありません。各データ管理ソリューションは、異なるタスクに合わせて最適化されています。ほとんどの実際のクラウドアプリとビッグデータプロセスには、さまざまなデータストレージ要件があり、多くの場合、データストレージソリューションの組み合わせを使用します。

Microsoft Fabricなどの最新の分析ソリューションは、さまざまな分析ニーズを満たすためにさまざまなデータサービスとツールを統合する包括的なプラットフォームを提供します。 Fabric には、組織全体の単一の統合された論理データレイクである OneLake が含まれています。 OneLake は、すべての組織データを 1 つの場所に格納、管理、セキュリティで保護するように設計されています。この柔軟性により、組織はさまざまなデータストレージと処理の要件に対応できます。

分析データストアの選択

Azure にはデータサービスストレージのオプションがいくつかあり、必要に応じて選択できます。

次のデータベースモデルは、さまざまな種類のタスクに最適化されています。

キー値データベースには、キー値ごとに 1 つのシリアル化されたオブジェクトが格納されます。これらは、取得が特定のキーに基づいている場合に大量のデータを管理するのに適しています。他の項目プロパティを照会する必要はありません。
ドキュメントデータベースは、値が ドキュメントであるキー値データベースです。このコンテキストでは、ドキュメントは名前付きフィールドと値のコレクションです。データベースは通常、XML、YAML、JSON、バイナリ JSON などの形式でデータを格納しますが、プレーンテキストを使用する場合があります。ドキュメントデータベースでは、キー以外のフィールドに対してクエリを実行し、セカンダリインデックスを定義してクエリの効率を向上させることができます。この機能により、ドキュメントデータベースは、ドキュメントキーの値よりも複雑な条件に基づいてデータを取得する必要があるアプリケーションに適しています。たとえば、製品 ID、顧客 ID、顧客名などのフィールドに対してクエリを実行することができます。
列ストアデータベースは、各列をディスクに個別に格納するキー値データストアです。 ワイド列ストア データベースは、単一の列だけでなく、列ファミリを格納する列ストアデータベースの一種です。たとえば、国勢調査データベースには、次の項目ごとに個別の列ファミリがある場合があります。
- 人の名前、ミドルネーム、姓
- そのユーザーの住所
- そのユーザーのプロフィール情報 (生年月日や性別など)
このデータベースは、各列ファミリを個別のパーティションに格納し、さらに 1 人のすべてのデータと同じキーへの関連付けを維持することができます。アプリケーションは、エンティティのすべてのデータをスキャンすることなく、1 つの列ファミリを読み取ることができます。
グラフデータベースは、オブジェクトとリレーションシップのコレクションとして情報を格納します。グラフデータベースは、オブジェクトのネットワークとオブジェクト間のリレーションシップにまたがるクエリを効率的に実行することができます。たとえば、人事データベースではオブジェクトは従業員の可能性があります。また、"佐藤さんのために直接的または間接的に働いているすべての従業員を検索する" などのクエリを簡単にすることもできます。
テレメトリデータベースと時系列データベースは、オブジェクトの追加専用のコレクションです。テレメトリデータベースは、さまざまな列ストアとメモリ内構造のデータに効率的にインデックスを付けます。この機能により、膨大な量のテレメトリと時系列データを格納および分析するための最適な選択肢になります。

Fabric では、キー値、ドキュメント、列ストア、グラフ、テレメトリデータベースなど、さまざまなデータベースモデルがサポートされています。この柔軟性により、さまざまな分析タスクのスケーラビリティが確保されます。

主要な選択条件

選択プロセスを絞り込むには、次の条件を考慮してください。

データのホットパスとして使えるサービングストレージが必要ですか。 "はい" の場合、スピードサービスレイヤーに合わせて最適化されたオプションに絞り込みます。
クエリが複数のプロセスまたはノードに自動的に分散される、超並列処理のサポートが必要ですか? "はい" の場合、クエリのスケールアウトをサポートするオプションを選択します。
リレーショナルデータストアを使用したいですか。その場合は、リレーショナルデータベースモデルを持つオプションに絞り込みます。ただし、一部の非リレーショナルストアではクエリ用の SQL 構文がサポートされており、PolyBase などのツールを使用して非リレーショナルデータストアのクエリを実行できます。
時系列データを収集しますか? 追加専用データを使用しますか。

Fabric OneLake では、Analysis Services、T-SQL、Apache Spark など、複数の分析エンジンがサポートされています。このサポートにより、さまざまなデータ処理とクエリのニーズに適しています。

能力マトリックス

次の表は、機能の主な相違点をまとめたものです。

一般的な機能

能力	SQLデータベース	Azure Synapse Analytics SQL プール	Azure Synapse Analytics Spark プール	アジュールデータエクスプローラー (Azure Data Explorer)	HDInsight 上の Apache HBase または Apache Phoenix	HDInsight 上の Hive LLAP	分析サービス	Azure Cosmos DB (アジュールコスモスデータベース)	ファブリック
マネージドサービスですか?	はい	はい	はい	はい	はい ¹	はい ¹	はい	はい	はい
プライマリデータベースモデル	リレーショナル（列ストアインデックスを使用する場合における列ストア形式）	列ストレージのリレーショナルテーブル	ワイドカラムストア	リレーショナル（列型ストレージ）、テレメトリ、時系列ストレージ	ワイドカラムストア	Hive またはインメモリ	表形式のセマンティックモデル	ドキュメントストア、グラフデータベース、キー・バリューストア、ワイドカラムストア	統合データレイク、リレーショナル、テレメトリ、時系列、ドキュメントストア、グラフ、キー値ストア
SQL 言語のサポート	はい	はい	はい	はい	はい ( Apache Phoenix Java Database Connectivity ドライバーを使用)	はい	いいえ	はい	はい
スピードサービスレイヤーに合わせて最適化	はい ²	はい ³	はい	はい	はい	はい	いいえ	はい	はい

[1] 手動構成とスケーリングを使用。

[2] メモリ最適化テーブルとハッシュインデックスまたは非クラスター化インデックスを使用。

[3] Azure Stream Analytics 出力としてサポート。

スケーラビリティ機能

能力	SQLデータベース	Azure Synapse Analytics SQL プール	Azure Synapse Analytics Spark プール	アジュールデータエクスプローラー (Azure Data Explorer)	HDInsight 上の Apache HBase または Apache Phoenix	HDInsight 上の Hive LLAP	分析サービス	Azure Cosmos DB (アジュールコスモスデータベース)	ファブリック
高可用性のための冗長リージョンサーバー	はい	いいえ	いいえ	はい	はい	いいえ	はい	はい	はい
クエリのスケールアウトをサポート	いいえ	はい	はい	はい	はい	はい	はい	はい	はい
動的スケーラビリティ (スケールアップ)	はい	はい	はい	はい	いいえ	いいえ	はい	はい	はい
データのメモリ内キャッシュをサポート	はい	はい	はい	はい	いいえ	はい	はい	いいえ	はい

セキュリティ機能

能力	SQLデータベース	Azure Synapse Analytics	アジュールデータエクスプローラー (Azure Data Explorer)	HDInsight 上の Apache HBase または Apache Phoenix	HDInsight 上の Hive LLAP	分析サービス	Azure Cosmos DB (アジュールコスモスデータベース)	ファブリック
認証	SQL または Microsoft Entra ID	SQL または Microsoft Entra ID	マイクロソフトエントラ ID	ローカル ID または Microsoft Entra ID ¹	ローカル ID または Microsoft Entra ID ¹	マイクロソフトエントラ ID	アクセス制御（IDとアクセス管理）を介したデータベースユーザーまたはMicrosoft Entra ID	マイクロソフトエントラ ID
保存データの暗号化	はい ²	はい ²	はい	はい ¹	はい ¹	はい	はい	はい
行レベルのセキュリティ	はい	はい ³	はい	はい ¹	はい ¹	はい	いいえ	はい
ファイアウォールをサポート	はい	はい	はい	はい ⁴	はい ⁴	はい	はい	はい
動的データマスキング	はい	はい	はい	はい ¹	はい	いいえ	いいえ	はい

[1] ドメインに参加している HDInsight クラスターを使用する必要があります。

[2] 透過的なデータ暗号化を使用して、保存データの暗号化と暗号化解除を行う必要があります。

[3] フィルター述語のみ。詳細については、「行レベルのセキュリティ」を参照してください。

[4] Azure Virtual Network 内で使用する場合。詳細については、「 Azure 仮想ネットワークを使用した HDInsight の拡張」を参照してください。

次の方法で共有

Azure で使用する分析データ ストアの選択

分析データ ストアの選択

主要な選択条件

能力マトリックス

一般的な機能

スケーラビリティ機能

セキュリティ機能

次のステップ

関連リソース

フィードバック

その他のリソース

Azure で使用する分析データストアの選択

分析データストアの選択