列ストアインデックス: 概要

[アーティクル]
08/21/2023

適用対象:SQL Server Azure SQL Database Azure SQL Managed Instance Azure Synapse Analytics Analytics Platform System (PDW)

列ストアインデックスは、大規模なデータウェアハウスファクトテーブルを格納し、そのテーブルにクエリを実行する際の標準となります。このインデックスは列ベースのデータストレージとクエリ処理を使用して、従来の行指向ストレージと比較して最大 10 倍のクエリパフォーマンスをデータウェアハウスで実現します。また、非圧縮データのサイズと比較して最大で 10 倍のデータ圧縮を実現できます。 SQL Server 2016 (13.x) SP1 以降、列ストアインデックスでは運用分析が可能になりました。トランザクションワークロードでパフォーマンスの高いリアルタイム分析を実行することができます。

関連するシナリオについての詳細は次のとおりです。

列ストアインデックスとは

列ストアインデックスは、列ストアと呼ばれる列指向データ形式を使用してデータを格納、取得、および管理するためのテクノロジです。

主な用語と概念

ここでは、列ストアインデックスに関連する主な用語と概念について説明します。

列ストア

列ストアは、行と列を含むテーブルとして論理的に編成され、列方向のデータ形式で物理的に格納されているデータです。

行ストア

行ストアは、行と列を含むテーブルとして論理的に編成され、行方向のデータ形式で物理的に格納されているデータです。この形式は、リレーショナルテーブルデータを格納する従来の方法です。 SQL Server では、行ストアは、基になるデータストレージ形式が、ヒープ、クラスター化インデックス、またはメモリ最適化テーブルであるテーブルを示します。

Note

列ストアインデックスの説明では、データストレージの形式を強調するために行ストアと列ストアという用語が使用されます。

行グループ

行グループは、同時に列ストア形式に圧縮される行のグループです。通常、1 つの行グループには、行グループあたりの最大行数である 1,048,576 行が含まれます。

高パフォーマンスと高い圧縮率を実現するために、列ストアインデックスは、テーブルを行グループにスライスし、各行グループを列方向に圧縮します。行グループ内の行数は、高い圧縮率が実現される程度に多く、インメモリ操作の利点を得られる程度に少なくなければなりません。

すべてのデータが削除された行グループは、COMPRESSED 状態から TOMBSTONE 状態に移行し、後で組ムーバーというバックグラウンドプロセスによって削除されます。行グループの状態の詳細については、「sys.dm_db_column_store_row_group_physical_stats (Transact-SQL)」を参照してください。

ヒント

小さな行グループが多すぎると、列ストアインデックスの品質が低下します。 SQL Server 2017 (14.x) 以前は、小さな COMPRESSED 行グループをマージするには、削除された行を削除して圧縮された行グループを結合する方法を決定する内部しきい値ポリシーに従って、再編成操作を行う必要があります。
SQL Server 2019 (15.x) 以降では、多数の行が削除された COMPRESSED 行グループをマージするには、バックグラウンドマージタスクも利用できます。
小さい行グループをマージすると、インデックスの品質が改善されます。

Note

SQL Server 2019 (15.x) 以降、Azure SQL Database、Azure SQL Managed Instance、および Azure Synapse Analytics の専用 SQL プール以降、タプルムーバーは、バックグラウンドマージタスクによってサポートされています。このタスクは、内部しきい値で指定した所定の期間存在していたと判断された小さい OPEN デルタ行グループを自動的に圧縮したり、大量の行が削除された COMPRESSED 行グループをマージしたりします。これにより、時間の経過とともに、列ストアインデックスの品質が向上します。

列セグメント

列セグメントは、行グループ内のデータ列です。

それぞれの行グループには、テーブルの 1 つの列につき 1 つの列セグメントが含まれます。
それぞれの列セグメントは一緒に圧縮され、物理メディアに格納されます。
セグメントを読み取らずにセグメントを高速に削除できるように、各セグメントのメタデータがあります。

Column segment

クラスター化列ストアインデックス

クラスター化列ストアインデックスは、テーブル全体に対する物理ストレージです。

Clustered columnstore index

列セグメントの断片化を低減し、パフォーマンスを高めるために、列ストアインデックスでは、一部のデータを、クラスター化インデックス (デルタストア と呼ばれます) と削除された行の ID の B ツリーリストに格納することがあります。デルタストア操作は内部で処理されます。列ストアインデックスは、正しいクエリ結果を返すために、列ストアとデルタストアの両方からのクエリ結果を結合します。

Note

SQL Server のドキュメントでは、一般にインデックスに関して B ツリーという用語が使用されます。行ストアインデックスで、SQL Server によって B+ ツリーが実装されます。これは、列ストアインデックスやメモリ内データストアには適用されません。詳細については、「SQL Server と Azure SQL のインデックスのアーキテクチャとデザインガイド」を参照してください。

デルタ行グループ

デルタ行グループは、列ストアインデックスでのみ使用されるクラスター化 B ツリーインデックスです。これは、行数がしきい値 (1,048,576 行) に達して列ストアに移動できるまで行を格納することで、列ストアの圧縮とパフォーマンスを高めます。

デルタ行グループが行数の上限に達すると、OPEN 状態から CLOSED 状態に移行します。組ムーバーというバックグラウンドプロセスによって、閉じられた行グループがチェックされます。プロセスによって閉じられた行グループが検出されると、デルタ行グループは圧縮され、COMPRESSED 行グループとして列ストアに格納されます。

デルタ行グループが圧縮されると、既存のデルタ行グループは TOMBSTONE 状態に移行し、参照がない場合はタプルムーバーによって後で削除されます。

行グループの状態の詳細については、「sys.dm_db_column_store_row_group_physical_stats (Transact-SQL)」を参照してください。

Note

SQL Server 2019 (15.x) 以降、タプルムーバーは、内部しきい値で指定した所定の期間存在していたと判断された小さい OPEN デルタ行グループを自動的に圧縮したり、大量の行が削除された COMPRESSED 行グループをマージしたりするバックグラウンドマージタスクによってサポートされています。これにより、時間の経過とともに、列ストアインデックスの品質が向上します。

デルタストア

列ストアインデックスは、複数のデルタ行グループを持つことができます。すべてのデルタ行グループを総称して、デルタストアと呼びます。

大規模な一括読み込みでは、行のほとんどがデルタストアを通らずに列ストアに直接移動します。一括読み込みの最後に位置する行の数は、行グループの最小サイズである 102,400 行を満たすには足りないことがあります。その結果、それらの行は列ストアではなくデルタストアに移動します。 102,400 行未満の小規模な一括読み込みでは、すべての行がデルタストアに直接移動します。

非クラスター化列ストアインデックス

非クラスター化列ストアインデックスとクラスター化列ストアインデックスは同じように機能します。異なるのは、非クラスター化列ストアインデックスが行ストアテーブルに作成されたセカンダリインデックスであるのに対し、クラスター化インデックスはテーブル全体のプライマリストレージである点です。

非クラスター化インデックスには、基になるテーブルの行と列の一部または全体のコピーが含まれています。インデックスはテーブルの 1 つ以上の列として定義され、行のフィルター処理条件をオプションで設定できます。

非クラスター化列ストアインデックスによりリアルタイム運用分析が可能になります。ここで、OLTP ワークロードは基になるクラスター化インデックスを使用します。一方、列ストアインデックスでは同時に分析が実行されます。詳細については、「列ストアを使用したリアルタイム運用分析の概要」をご覧ください。

バッチモード実行

バッチモード実行は、複数の行をまとめて処理するためのクエリ処理方法です。バッチモード実行は、列ストアストレージ形式と緊密に統合され、このストレージ形式に合わせて最適化されています。バッチモード実行は、"ベクターベースの" 実行、または "ベクター化された" 実行と呼ばれることもあります。列ストアインデックスのクエリではバッチモード実行が使用され、これによりクエリパフォーマンスが、通常、2 から 4 倍向上します。詳細については、「クエリ処理アーキテクチャガイド」をご覧ください。

列ストアインデックスを使用する理由

列ストアインデックスにより、非常に高いレベルでデータ圧縮が実現し (通常 10 倍)、データウェアハウスのストレージコストが大幅に削減されます。分析においても、列ストアインデックスは B ツリーインデックスと比べて桁違いに優れたパフォーマンスを発揮します。列ストアインデックスは、データウェアハウスと分析のワークロードに対して推奨されるデータストレージ形式です。 SQL Server 2016 (13.x) 以降、運用ワークロードにおけるリアルタイム分析で列ストアインデックスを使用できます。

列ストアインデックスが高速に動作する理由:

列には同じドメインの値 (一般的に似たような値) が格納されます。これにより圧縮率が上がります。システム内における I/O のボトルネックが最小化または除外され、メモリ使用量が大幅に減少します。
高い圧縮比率により、メモリ使用量が削減され、クエリのパフォーマンスが向上します。その結果、SQL Server がより多くのクエリやデータ操作をインメモリで実行できるため、クエリのパフォーマンスを向上できます。
バッチ実行では、複数の行をまとめて処理することで、クエリのパフォーマンスを高めます (通常 2 から 4 倍)。
クエリはテーブルから少数の列のみを選択することが多く、物理メディアからの合計 I/O を低減します。

列ストアインデックスを使用するタイミング

推奨されるユースケース

クラスター化列ストアインデックスを使用して、データウェアハウスワークロード用にファクトテーブルと大きなディメンションテーブルを格納します。この方法により、クエリのパフォーマンスとデータ圧縮が最大で 10 倍向上します。詳しくは、「データウェアハウスの列ストアインデックス」をご覧ください。
非クラスター化列ストアインデックスを使用して、OLTP ワークロードでリアルタイム分析を実行します。詳細については、「列ストアを使用したリアルタイム運用分析の概要」をご覧ください。
列ストアインデックスのその他の使用シナリオについては、「ニーズに最適な列ストアインデックスを選択する」を参照してください。

行ストアインデックスと列ストアインデックスはどのように選択すればよいですか。

行ストアインデックスは、データをシークして特定の値を検索するクエリや、狭い範囲の値でのクエリを実行する場合に、最適なパフォーマンスを発揮します。トランザクションワークロードでは、テーブルスキャンではなく主にテーブルシークを必要とする傾向があるため、行ストアインデックスを使用してください。

列ストアインデックスは、特に大規模なテーブルで、大量のデータをスキャンする分析クエリを実行するときにパフォーマンスが高くなります。この列ストアインデックスは、特にファクトテーブルのデータウェアハウスと分析のワークロードで使用します。ファクトテーブルでは、テーブルシークではなく完全なテーブルスキャンが必要になることが多いためです。

SQL Server 2022 (16.x) 以降では、順序付けされたされたクラスター化列ストアインデックスによって、順序付けられた列述語に基づくクエリのパフォーマンスが向上します。順序付き列ストアインデックスにより、行グループの削除が改善され、行グループを完全にスキップすることでパフォーマンスが向上します。詳細については、「順序指定クラスター化列ストアインデックスを使用したパフォーマンスのチューニング」を参照してください。

行ストアと列ストアを同じテーブルで結合できますか。

はい。 SQL Server 2016 (13.x) 以降、更新可能な非クラスター化列ストアインデックスを、行ストアテーブルに作成できます。列ストアインデックスには選択された列のコピーが格納されるため、このデータ用に追加の容量が必要になります。ただし、選択されたデータは平均で 10 倍に圧縮されます。列ストアインデックスの分析と行ストアインデックスのトランザクションを同時に実行できます。行ストアテーブルでデータが変更されると列ストアが更新されます。このため、両方のインデックスが同じデータに対して作業を行うことになります。

SQL Server 2016 (13.x) 以降、列ストアインデックス上に 1 つまたは複数の非クラスター化行ストアインデックスを持たせて、基になる列ストア上で効率的にテーブルを検索できるようになりました。他のオプションも使用できます。たとえば、行ストアテーブルで UNIQUE 制約を使用することで、主キー制約を適用できます。一意でない値は行ストアテーブルに挿入できないため、SQL Serverで列ストアにその値を挿入することはできません。

Metadata

列ストアインデックス内のすべての列は、付加列としてメタデータに格納されます。列ストアインデックスはキー列を持ちません。

sys.indexes (Transact-SQL)

sys.index_columns (Transact-SQL)

sys.partitions (Transact-SQL)

sys.internal_partitions (Transact-SQL)

sys.column_store_segments (Transact-SQL)

sys.column_store_dictionaries (Transact-SQL)

sys.column_store_row_groups (Transact-SQL)

sys.dm_db_column_store_row_group_operational_stats (Transact-SQL)

sys.dm_db_column_store_row_group_physical_stats (Transact-SQL)

sys.dm_column_store_object_pool (Transact-SQL)

sys.dm_db_column_store_row_group_operational_stats (Transact-SQL)

sys.dm_db_index_operational_stats (Transact-SQL)

sys.dm_db_index_physical_stats (Transact-SQL)

クラスター化列ストアインデックスとしてリレーショナルテーブルを指定していない限り、そのリレーショナルテーブルでは、行ストアが、基になるデータ形式として使用されます。 WITH CLUSTERED COLUMNSTORE INDEX オプションを指定しない場合、CREATE TABLE によって行ストアテーブルが作成されます。

CREATE TABLE ステートメントでテーブルを作成する際に、WITH CLUSTERED COLUMNSTORE INDEX オプションを指定することでそのテーブルを列ストアとして作成できます。既に、行ストアテーブルがある場合、その行ストアは、CREATE COLUMNSTORE INDEX ステートメントを使用して列ストアに変換できます。

タスク	関連記事	メモ
テーブルを列ストアとして作成する。	CREATE TABLE (Transact-SQL)	SQL Server 2016 (13.x) 以降、テーブルをクラスター化列ストアインデックスとして作成できます。最初に行ストアテーブルを作成し、次に列ストアに変換する必要はありません。
列ストアインデックスを持つメモリ最適化テーブルを作成します。	CREATE TABLE (Transact-SQL)	SQL Server 2016 (13.x) 以降、列ストアインデックスを持つ、メモリ最適化テーブルを作成できます。列ストアインデックスは、テーブルの作成後に `ALTER TABLE ADD INDEX` 構文を使用して追加することもできます。
行ストアテーブルを列ストアに変換する。	CREATE COLUMNSTORE INDEX (Transact-SQL)	既存のヒープまたは B ツリーを列ストアに変換します。この変換を実行するときの既存のインデックスとインデックス名の処理方法を例示します。
列ストアテーブルを行ストアに変換する。	CREATE CLUSTERED INDEX (Transact-SQL) または列ストアテーブルを行ストアヒープに戻す	この変換は通常は必要ありませんが、状況によっては必要になる場合があります。列ストアをヒープまたはクラスター化インデックスに変換する方法を例示します。
行ストアテーブルで列ストアインデックスを作成する。	CREATE COLUMNSTORE INDEX (Transact-SQL)	行ストアテーブルでは列ストアインデックスを 1 つ使用できます。 SQL Server 2016 (13.x) 以降、列ストアインデックスにフィルター条件を指定できるようになりました。基本構文を例示します。
運用分析のパフォーマンスの高いインデックスを作成する。	列ストアを使用したリアルタイム運用分析の概要	OLTP クエリによって B ツリーインデックスが使用され、分析クエリによって列ストアインデックスが使用されるように、補完的な列ストアインデックスと B ツリーインデックスを作成する方法について説明します。
データウェアハウス用のパフォーマンスの高い列ストアインデックスを作成する。	データウェアハウスの列ストアインデックス	列ストアテーブルで B ツリーインデックスを使用して、パフォーマンスの高いデータウェアハウスクエリを作成する方法について説明します。
B ツリーインデックスを使用して列ストアインデックスに主キー制約を適用する	データウェアハウスの列ストアインデックス	B ツリーインデックスと列ストアインデックスを組み合わせて、列ストアインデックスに主キー制約を適用する方法を示します。
列ストアインデックスを削除する。	DROP INDEX (Transact-SQL)	列ストアインデックスを削除するには、B ツリーインデックスが使用する標準の `DROP INDEX` 構文を使用します。クラスター化列ストアインデックスを削除すると、列ストアテーブルがヒープに変換されます。
列ストアインデックスから行を削除する。	DELETE (Transact-SQL)	DELETE (Transact-SQL) を使用して行を削除します。列ストアの行: SQL Server は行を論理的に削除されたとしてマークしますが、インデックスが再構築されるまで行の物理ストレージを再確保することはありません。デルタストア行: SQL Server は論理的および物理的に行を削除します。
列ストアインデックスの行を更新する。	UPDATE (Transact-SQL)	UPDATE (Transact-SQL) を使用して行を更新します。列ストアの行: SQL Server は行を論理的に削除されたとしてマークし、更新された行をデルタストアに挿入します。デルタストア行: SQL Server は、デルタストアの行を更新します。
データを列ストアインデックスに読み込む。	列ストアインデックスデータの読み込み
デルタストアのすべての行を強制的に列ストアに移動します。	ALTER INDEX (Transact-SQL) ... `REBUILD` インデックスの再編成と再構築	`ALTER INDEX` に `REBUILD` オプションを指定すると、すべての行が列ストアに強制的に移動されます。
列ストアインデックスを最適化する。	ALTER INDEX (Transact-SQL)	`ALTER INDEX ... REORGANIZE` は、列ストアインデックスをオンラインで最適化します。
テーブルと列ストアインデックスをマージする。	MERGE (Transact-SQL)

次のステップ

列ストアインデックスの新機能
 列ストアインデックスデータの読み込み
 列ストアインデックスのバージョン管理機能の概要
 列ストアインデックスのクエリパフォーマンス
 列ストアを使用したリアルタイム運用分析の概要
 データウェアハウスの列ストアインデックス
 列ストアインデックスの最適化
 SQL Server インデックスデザインガイド
 列ストアインデックスのアーキテクチャ
 CREATE COLUMNSTORE INDEX (Transact-SQL)

列ストアインデックス: 概要

列ストアインデックスとは

主な用語と概念

列ストア

行ストア

行グループ

列セグメント

クラスター化列ストアインデックス

デルタ行グループ

デルタストア

非クラスター化列ストアインデックス

バッチモード実行

列ストアインデックスを使用する理由

列ストアインデックスを使用するタイミング

行ストアインデックスと列ストアインデックスはどのように選択すればよいですか。

行ストアと列ストアを同じテーブルで結合できますか。

Metadata

次のステップ

フィードバック

フィードバック

その他のリソース

列ストア インデックス: 概要

列ストア インデックスとは

主な用語と概念

列ストア

行ストア

行グループ

列セグメント

クラスター化列ストア インデックス

デルタ行グループ

デルタストア

非クラスター化列ストア インデックス

バッチ モード実行

列ストア インデックスを使用する理由

列ストア インデックスを使用するタイミング

行ストア インデックスと列ストア インデックスはどのように選択すればよいですか。

行ストアと列ストアを同じテーブルで結合できますか。

Metadata

関連タスク

次のステップ

フィードバック

フィードバック

その他のリソース

列ストアインデックス: 概要

列ストアインデックスとは

クラスター化列ストアインデックス

非クラスター化列ストアインデックス

バッチモード実行

列ストアインデックスを使用する理由

列ストアインデックスを使用するタイミング

行ストアインデックスと列ストアインデックスはどのように選択すればよいですか。