數據行存放區索引 - 設計指導方針

適用於：SQL Server Azure SQL Database Azure SQL Managed Instance Azure Synapse Analytics 分析平台系統（PDW）Microsoft Fabric 中的 SQL 資料庫

資料行存放區索引設計的高階建議。下列幾個良好的設計決策，有助您實現資料行存放區索引所設計的高資料壓縮和查詢效能。

Prerequisites

本文假設您熟悉資料行存放區架構和術語。如需詳細資訊，請參閱數據行存放區索引：概觀和數據行存放區索引架構。

了解自身的資料需求

在設計資料行存放區索引之前，請先盡可能了解您的資料需求。例如，您可以思考下列問題的答案：

我的桌子有多大？
我的查詢是否大多數執行會掃描大範圍值的分析？資料列存取索引是設計為適用於大範圍掃描，而不是用於查詢特定值。
我的工作負載是否會進行大量更新與刪除？列存儲索引適用於資料穩定的情況。因此，查詢應僅針對 10% 以下的資料列進行更新和刪除。
資料倉儲中是否有事實表和維度表？
是否需要對交易式工作負載執行分析？如果是這種情況，請參閱資料行存放區設計指引以了解即時操作分析。

您可能不需要資料行存放區索引。對於查詢資料、搜尋特定值或小範圍值的查詢，資料列存放區（或 B 型樹狀結構）資料表（含堆積或叢集索引）性能最佳。您應針對交易式工作負載使用列存儲索引，因為這些工作負載主要需要進行資料表搜尋，而非進行大範圍的資料表掃描。

視需要選擇最適合的資料行存放區索引

資料行存放區索引可以是叢集的或非叢集的。叢集資料行存放區索引可以有一或多個非叢集 B 樹索引。您可以輕鬆試用資料行存放區索引。如果您將資料表建立為資料行存放區索引，只要卸除資料行存放區索引，即可輕鬆將資料表轉換回資料列存放區資料表。

以下是選項和建議的摘要。

列式儲存選項	建議使用時機	Compression
叢集資料行存放區索引	用途： 1) 具有星形或雪花式結構描述的傳統資料倉儲工作負載。 2) 能插入大量資料且有最低限度更新和刪除的物聯網 (IOT) 工作負載。	平均為 10 倍
已排序的數據行存放區索引	透過單一已排序的述詞資料行或資料行集查詢叢集資料行存放區索引時，請使用此方法。本指南類似於為資料列存儲叢集索引選擇索引鍵列，不過壓縮後的底層資料列群組行為有所不同。如需詳細資訊，請參閱 CREATE COLUMNSTORE INDEX 和使用已排序的列存儲索引進行效能微調。	平均為 10 倍
在叢集資料行存放區索引上的非叢集 B 樹索引	用於： 1. 在叢集資料行存放區索引上，強制主鍵和外鍵條件約束。 2.加速搜尋特定值或小範圍值的查詢。 3.加速特定資料列的更新和刪除。	平均為 10 倍，加上一些額外的 NCI 儲存空間。
以磁碟為基礎的堆積或 B 型樹狀結構索引的非叢集資料行存放區索引	用途： 1) 具有一些分析查詢的 OLTP 工作負載。您可以卸除為了分析所建立的 B 型樹狀結構索引，並將其取代為一個非叢集資料行存放區索引。 2) 許多傳統 OLTP 工作負載，其可執行擷取轉換載入 (ETL) 作業，以將資料移至不同的資料倉儲。您可以在某些 OLTP 資料表上建立非叢集資料行存放區索引，以避免產生 ETL 和個別的資料倉儲。	NCCI 是額外索引，平均需要多 10% 的儲存體。
記憶體中的資料表上的資料行存放區索引	相關建議與以磁碟為基礎之資料表上的非叢集資料行存放區索引相同，除非基底資料表是記憶體中的資料表。	列存儲索引是額外的索引。

針對大型資料倉儲資料表，使用叢集資料行存放區索引

叢集資料行存放區索引不單只是索引，而是主要資料表儲存體。它可以實現大型資料倉儲的事實和維度資料表的高度資料壓縮，並大幅改善查詢效能。叢集資料行存放區索引最適合用於分析查詢，而不是交易式的查詢，因為分析查詢通常會對大範圍的值執行作業，而不是查閱特定值。

在下列情況下，請考慮使用叢集資料行存放區索引：

每個分割區至少有一百萬個資料列。列儲存索引在每個分割區內都有資料列群組。如果數據表太小而無法填滿每個數據分割中的數據列群組，您可能不會獲得數據行存放區壓縮和查詢效能的優點。
查詢主要會對各範圍的值執行分析。例如，若要尋找資料行的平均值，查詢必須掃描所有資料行值。接著，將這些值加總來計算平均值。
插入作業主要針對大量資料進行，並且僅有最低限度的更新和刪除。許多工作負載（如物聯網）會插入大量資料，僅需極少更新和刪除。這些工作負載可以藉由使用叢集資料行存放區索引，發揮壓縮和查詢效能提升的優勢。

在下列情況下，請不要使用叢集資料行存放區索引：

資料表需使用 varchar(max)、nvarchar(max) 或 varbinary(max) 資料類型。或者，設計資料行存放區索引，使其不包含這些資料行 (適用於：SQL Server 2016 (13.x) 和之前的版本)。
資料表資料不是永久性的。當您需要快速儲存和刪除資料時，請考慮使用堆積或暫存資料表。
每個分割區的資料列少於 100 萬列。
資料表上超過 10% 的作業都是更新和刪除。大量更新和刪除會導致碎片化。片段會影響壓縮速率和查詢效能，直到您執行稱為重新組織的作業，該作業會強制所有數據進入數據行存放區並移除片段。如需詳細資訊，請參閱將資料行存放區索引中的索引片段最小化。

如需詳細資訊，請參閱數據倉儲中的數據行存放區索引。

針對大型數據倉儲數據表使用已排序的數據行存放區索引

如需了解有序的資料行存放庫索引的可用性，請參閱資料行存放庫索引：概觀。

請考慮在下列案例中使用已排序的資料行存放區索引：

當數據相對靜態（不常寫入和刪除），且已排序的數據行存放區索引鍵是靜態的時，已排序的數據行存放區索引可以針對分析工作負載提供非排序數據行存放區索引或數據列存放區索引的顯著效能優勢。
有序行存儲索引鍵的第一欄中不同的值越多，效能提升可能會越大。這是因為字串資料的區段消除已改善。如需詳細資訊，請參閱區段消除。
選擇一個經常被查詢且可以利用區段消除來提高性能的有序列存儲索引鍵，尤其是索引鍵的第一個列。由於數據表中其他數據列的區段消除，效能提升的預測性較低。
僅需查詢最新分析數據的使用情境，例如最近 15 秒內的數據，排序的欄存儲索引可以提供針對較舊數據的區段消除功能。在有序列存儲的資料索引鍵中，第一個欄位必須是日期/時間資料，例如插入或創建的日期/時間。區段消除在已排序的數據行存放區索引中會比未排序的數據行存放區索引更有效率。
請考慮在包含具有 GUID 資料鍵值的資料表中使用有序的 columnstore 索引，其中 uniqueidentifier 資料類型現在可用於區段消除。

在下列案例中，已排序的數據行存放區索引可能沒有那麼有效：

類似於其他列存索引，高頻率的插入活動可能會導致過多的儲存 I/O。
針對有大量寫入作業的工作負載，由於元組移動器進行資料列群組維護，區段消除的品質會隨時間下降。使用 ALTER INDEX REORGANIZE來定期維護數據行存放區索引，即可減輕此問題。

新增 B 型樹狀結構非叢集索引，以保障有效率的資料表搜尋

從 SQL Server 2016 (13.x) 開始，您可以將非叢集 B-tree 或資料列存放區索引作為叢集資料行存放區索引的次要索引來建立。資料列存儲索引發生變更時，B 型樹狀結構的非叢集索引也會更新。您可以使用這項強大功能來發揮優勢。

藉由使用次要 B 型樹狀結構索引，您可以有效率地搜尋特定的資料列，而不需掃描所有資料列。其他選項也變得可以使用了。例如，您可以在 B 樹索引上使用 UNIQUE 約束來實施主鍵或外鍵約束。由於非唯一值無法插入 B 型樹狀結構索引中，SQL Server 無法將值插入數據行存放區中。

請考慮在資料行存放區索引上使用 B 型樹狀結構索引，以便：

執行用以搜尋特定值或小範圍值的查詢。
強制執行主鍵或外鍵的約束。
有效率地執行 Update 和 Delete 作業。 B 型樹狀結構索引能夠快速找到要更新和刪除的特定資料列，而不需掃描整個資料表或資料表的分割區。
您有額外的儲存空間可用來存放 B 樹型索引。

使用非叢集資料行存放區索引進行即時分析

從 SQL Server 2016 (13.x) 開始，您可以在以磁碟為基礎的資料列存放區資料表或記憶體內部 OLTP 資料表上，使用非叢集資料行存放區索引。這樣一來，即可在交易式資料表上執行即時的分析。當基礎資料表上發生交易時，您可以在資料行存放區索引上執行分析。由於一個資料表可以管理兩種索引，因此變更可即時在資料列存放區和資料行存放區索引中生效。

比起資料列存放區索引，資料行存放區索引可提供更高 10 倍的資料壓縮功能，因此它只需要少量的額外儲存空間。例如，如果壓縮的資料列存放區資料表需要 20 GB，資料行存放區索引可能額外需要 2 GB。所需的額外空間也取決於非叢集資料行存放區索引中的資料行數目而定。

請考慮使用非叢集資料行存放區索引，以便：

在交易式資料列表上執行即時分析。您可以將適用於分析的現有 B 型樹狀結構索引取代為非叢集資料行存放區索引。
免除個別資料倉儲的需要。傳統上，公司會在資料列存放區資料表上執行交易，再將資料載入不同的資料倉儲執行分析。如果工作負載很多，您可以在交易式資料表上建立非叢集資料行存放區索引，以避免載入處理序與個別的資料倉儲。

SQL Server 2016 (13.x) 提供數種策略，可讓這個案例更有效能。您可以輕鬆地嘗試它，因為您可以啟用非叢集數據行存放區索引，而不需要變更 OLTP 應用程式。

若要新增額外的處理資源，請在可讀取的次要複本上執行分析。使用可讀取次要複本時，可以區隔交易式工作負載和分析工作負載的處理。

如需詳細資訊，請參閱開始使用數據行存放區進行即時作業分析

如需如何選擇最佳資料行存放區索引的詳細資訊，請參閱 Sunil Agarwal 的部落格文章 Which columnstore index is right for my workload? (哪一個資料行存放區索引最適合我的工作負載？)。

使用資料表分割區以保障資料管理和查詢效能

資料行存放區索引可支援資料分割，這是管理和封存資料的好方法。資料分割也能限制一個或多個分割區的作業，以提升查詢效能。

使用資料分割來讓資料更容易管理

對於大型資料表，若要管理各種範圍的資料，唯一實用的作法是使用資料分割。列存表分割區的優勢也適用於列存索引。

例如，列存儲式資料表和行存儲式資料表皆會使用分割區，以便：

控制增量備份的大小。您可以將分割區備份至不同的檔案群組，然後將它們標示為唯讀。如此一來，未來的備份會略過只讀檔案群組。
藉由將較舊的分割區移至較便宜的儲存體，以節省儲存成本。例如，您可以使用分割區切換，將分割區移至較便宜的儲存位置。
限制作業在分割區內，以提高執行作業的效率。例如，您可以僅針對分散的分割區進行索引維護。

此外，使用資料行存放區索引時，您可以透過分割來完成下列作業：

節省額外 30% 的儲存成本。您可以使用 COLUMNSTORE_ARCHIVE 壓縮選項來壓縮較舊的分割區。查詢效能可能會變慢，但如果數據分割被查詢的頻率不高，這樣的效能可能是可以接受的。

使用分割區來提升查詢效能

使用分割時，您可以將查詢限制為僅掃描特定的分割，藉此限制掃描的資料列數目。例如，如果索引是依年份來分割，而您要進行去年資料的分析查詢，則此查詢只需要掃描一個分割區中的資料。

針對列存索引，使用較少的分區

除非您的資料量足夠大，否則資料行存放區索引在使用的分割區較少時會比資料列存放區索引有更佳的執行效能。如果每個資料分割區的資料列不足 100 萬個，大部分的資料列可能會移至 deltastore，而在此無法享受 columnstore 壓縮的效能優勢。例如，如果您將一百萬行資料載入具有 10 個資料分割的資料表，而且每個分割區接收 100,000 行資料，所有的行都會進入差異行群組。

Example:

將 1,000,000 個資料列載入一個分割區或未分區的資料表。您會取得一個壓縮資料列群組，其中含有 1,000,000 個資料列。這可以確保高資料壓縮與快速的查詢效能。
將 1,000,000 個資料列平均載入 10 個分割區。每個分割區包含 100,000 筆資料列，這低於欄存壓縮的最小臨界值。因此，資料行存放區索引可能會有 10 個增量資料列群組，每個群組含有 100,000 個資料列。有一些方法可以強制將 Delta 資料列群組放入資料行存儲。不過，如果這些都是數據行存放區索引中唯一的數據列，壓縮的數據列群組太小，無法達到最佳壓縮和查詢效能。

如需資料分割的詳細資訊，請參閱 Sunil Agarwal 的部落格文章 Should I partition my columnstore index? (我需要針對資料行存放區索引進行資料分割嗎？)。

選擇適當的資料壓縮方法

資料行存放區索引提供兩種資料壓縮的選擇：資料行存放區壓縮及封存壓縮。您可以在建立索引時選擇壓縮選項，或於稍後使用下列項目來變更：ALTER INDEX ...REBUILD。

如需最佳的查詢效能，請使用資料行存放區壓縮

資料行存放區壓縮通常可實現優於資料列存放區索引 10 倍的壓縮率。它是資料行存放區索引的標準壓縮方法，並可提供快速的查詢效能。

如需最佳的資料壓縮，請使用封存壓縮

當查詢效能不那麼重要時，封存壓縮旨在實現最大壓縮。它可以實現比資料行存放區壓縮更高的資料壓縮率，但也必須付出代價。它會花費更多時間來壓縮和解壓縮資料，因此不適合需要快速查詢效能的情況。

在將資料列表轉換為列存儲索引時，請使用最佳化技巧。

如果您的資料已在資料列存放區資料表中，您可以使用 CREATE COLUMNSTORE INDEX，將資料表轉換成叢集資料行存放區索引。在轉換資料表後，還有一些最佳化功能可以改善查詢效能，將於稍後描述。

使用 MAXDOP 來提升資料列群組品質

您可以設定處理器的數目上限，以將堆積或叢集的 B 型樹狀結構索引轉換為資料行存放區索引。若要設定處理器，請使用最大平行度參數 (MAXDOP)。

如果您有大量數據，MAXDOP 1 可能太慢。將 MAXDOP 增加到 4 則比較恰當。如果這麼做導致幾個資料列群組的資料列數目不理想，您可以執行 ALTER INDEX REORGANIZE，將其合併到背景中。

保留 B 型樹索引的排序順序

由於 B 型樹狀結構索引已經按照排序順序儲存資料列，因此，將資料列壓縮成資料行存放區索引時，保留這個順序可以提升查詢效能。

資料行存放區索引不會排序資料，但會使用中繼資料來追蹤每個資料列群組中每個資料行區段的最小和最大值。當掃描一個範圍的值時，它可以快速計算出何時應該略過資料列群組。當資料經過排序時，可以略過多個資料列群組。

若要在轉換期間保留排序的順序：

使用 CREATE COLUMNSTORE INDEX 指令，並加入 DROP_EXISTING 子句。這也會保留索引的名稱。如果您有已經使用數據列存放區索引名稱的腳本，則不需要更新它們。

這個範例會將名為 MyFactTable 的資料表上的叢集資料列存放區索引，轉換成叢集資料行存放區索引。 ClusteredIndex_d473567f7ea04d7aafcac5364c241e09 索引名稱維持不變。
```
CREATE CLUSTERED COLUMNSTORE INDEX ClusteredIndex_d473567f7ea04d7aafcac5364c241e09
ON MyFactTable
WITH (DROP_EXISTING = ON);
```

了解區段移除

每個資料列群組包含表中每一個資料行的一個資料行區段。每個資料行區段會各自壓縮成一體並且儲存到實體媒體上。

每個區段都有中繼資料，可讓您快速刪除區段，而不需讀取它們。資料類型的選擇可能會對資料行存放區索引中以常見篩選述詞為基礎的查詢效能產生重大影響。如需詳細資訊，請參閱區段消除。

如需建立和維護數據行存放區索引的一般工作摘要，請參閱相關工作。

意見反應

此頁面對您有幫助嗎？

Last updated on 2025-11-18