最大化列組品質以提升欄位儲存索引效能

Tip

Microsoft Fabric Data Warehouse 是一個企業規模的關聯式倉庫，建立在資料湖基礎上，具備未來準備架構、內建 AI 及新功能。如果你是資料倉儲新手，建議先從Fabric Data Warehouse開始。現有的專用 SQL 工作負載可升級至 Fabric，以取得資料科學、即時分析與報告等多項新功能。

列組品質由列群中的列數決定。增加可用記憶體，可最大化資料行存放索引在每個資料列群組中可壓縮的資料列數。利用這些方法提升欄位儲存索引的壓縮率與查詢效能。

為什麼行群組大小很重要

由於欄位儲存索引是透過掃描各個資料列群組的欄位區段來掃描資料表，因此最大化每個資料列群組的列數能提升查詢效能。當列群組的列數較多時，資料壓縮會改善，這表示從磁碟讀取的資料量減少。

欲了解更多關於列群的資訊，請參閱 Columnstore 索引指南。

列群組的目標大小

為了達到最佳的查詢效能，目標是最大化欄位儲存索引中每個列組的列數。一個列群組最多可有 1,048,576 列。每個資料列群組沒有最多資料列也沒關係。當列群至少有 100,000 列時，欄位儲存索引能達到良好的效能。

在壓縮過程中，行組可能會被裁剪

在大量載入或欄位儲存索引重建時，有時記憶體不足以壓縮每個列群組指定的所有列。當記憶體壓力發生時，資料行存放索引會縮減資料列群組大小，使資料行存放壓縮能夠成功。

當記憶體不足以壓縮每個列組至少 10,000 列時，會產生錯誤。

欲了解更多關於批量載入的資訊，請參閱「大量載入至叢集欄位儲存索引」。

如何監控列群組品質

動態管理視圖（DMV）（sys.dm_db_column_store_row_group_physical_stats 包含與 SQL DB 相符的視圖定義）會揭露有用資訊，例如列群組中的列數，以及如果有修剪時修剪的原因。您可以建立下列檢視，以便查詢此 DMV，並取得資料列群組修剪資訊。

CREATE VIEW dbo.vCS_rg_physical_stats
AS
WITH cte
AS
(
select   tb.[name]                    AS [logical_table_name]
,        rg.[row_group_id]            AS [row_group_id]
,        rg.[state]                   AS [state]
,        rg.[state_desc]              AS [state_desc]
,        rg.[total_rows]              AS [total_rows]
,        rg.[trim_reason_desc]        AS trim_reason_desc
,        mp.[physical_name]           AS physical_name
FROM    sys.[schemas] sm
JOIN    sys.[tables] tb               ON  sm.[schema_id]          = tb.[schema_id]
JOIN    sys.[pdw_table_mappings] mp   ON  tb.[object_id]          = mp.[object_id]
JOIN    sys.[pdw_nodes_tables] nt     ON  nt.[name]               = mp.[physical_name]
JOIN    sys.[dm_pdw_nodes_db_column_store_row_group_physical_stats] rg      ON  rg.[object_id]     = nt.[object_id]
                                                                            AND rg.[pdw_node_id]   = nt.[pdw_node_id]
                                        AND rg.[distribution_id]    = nt.[distribution_id]
)
SELECT *
FROM cte;

欄位 trim_reason_desc 表示列群是否被裁剪（trim_reason_desc = NO_TRIM 表示未被裁剪，且列群品質最佳）。下列修剪原因表示資料列群組過早修剪：

BULKLOAD：當載入的輸入批次資料列少於 100 萬列時，會使用此修剪原因。若插入的資料列數大於 100,000 列，引擎會建立壓縮的資料列群組 (而不是插入增量存放區)，但會將修剪原因設為 BULKLOAD。在此情境下，可以考慮增加批次負載以包含更多的資料列。另外，重新評估你的分割方案，確保不會太細緻，因為列群組無法跨越分割區邊界。
MEMORY_LIMITATION：要建立擁有 100 萬列的列群組，引擎需要一定量的工作記憶體。當載入會話的可用記憶體少於所需工作記憶體時，列群組會被提前修剪。以下章節說明如何估算所需記憶體並分配更多記憶體。
DICTIONARY_SIZE：此修剪原因表示資料列群組修剪發生，因為至少存在一個具有寬字串或高基數字串的字串欄位。字典大小在記憶體中限制為 16 MB，一旦達到這個限制，資料列群組就會被壓縮。如果遇到這種情況，可以考慮將有問題的欄位隔離到獨立的表格中。

如何估算記憶體需求

壓縮一個行群所需的最大記憶體大致如下：

72 MB +
#rows * #columns * 8 位元組 +
#rows * #短字串的欄位 * 32 字節 +
壓縮字典大小為字串欄位數量 * 16 MB。

備註

其中短字串列使用=32位元組的字串資料型 <態，長字串列使用32位元組的字串資料型 > 態。

長字串會使用專為文字壓縮設計的壓縮方法進行壓縮。此壓縮方法使用字典來儲存文字模式。字典的最大容量為 16 MB。在每個列組中，每個長字串欄位只有一個字典。

減少記憶體需求的方法

請使用以下技術來減少將列群壓縮成欄位儲存索引所需的記憶體需求。

減少欄位數量

如果可能，設計表格時欄位數會更少。當列群被壓縮到欄位儲存時，欄位儲存索引會分別壓縮每個欄位區段。因此，隨著欄位數量增加，壓縮列群所需的記憶體需求也會增加。

減少字串欄位的使用量

字串資料型態的欄位比數字和日期資料型態需要更多記憶體。為了減少記憶體需求，可以考慮將事實表中的字串欄位移除，並放入較小的維度表中。

字串壓縮的額外記憶體需求：

字串資料型別最多 32 個字元，每個值可能需要額外 32 個位元組。
超過 32 個字元的字串資料型態則使用字典方法進行壓縮。列組中的每一欄可能需要額外 16 MB 來建立字典。

避免過度分割

欄位儲存索引會在每個分割區建立一個或多個列群組。在 Azure Synapse Analytics 中，資料倉儲的分區數量會快速增加，因為資料是分散式的，每個分區都有分割。如果表格有太多分割區，可能沒有足夠的列來填滿列群組。缺乏列數不會在壓縮時造成記憶體壓力，但會導致列群無法達到最佳欄位儲存的查詢效能。

避免過度分割的另一個原因是，將資料列載入分區資料表的欄位儲存索引會產生記憶體負擔。在載入過程中，許多分割區可能會接收到這些資料列，這些資料會被儲存在記憶體中，直到每個分割區有足夠的資料列進行壓縮。分割區太多會造成額外的記憶體壓力。

簡化載入查詢

資料庫在查詢中的所有運算元間共享查詢的記憶體授權。當載入查詢有複雜的排序與連接時，可用於壓縮的記憶體會減少。

設計載入查詢時，只專注於載入查詢。如果你需要對資料執行轉換，請將轉換與載入查詢分開執行。例如，將資料暫存於 Heap 表格中，執行轉換，然後將暫存區表格加載到欄位儲存索引。

調整 MAXDOP

每個發行版會在有多個 CPU 核心可用時，平行地將列群組壓縮到欄位儲存中。平行性需要額外的記憶體資源，可能導致記憶體壓力及列群修剪。

為了降低記憶體壓力，你可以使用 MAXDOP 查詢提示，強制載入操作在每個發行版內以串列模式執行。

CREATE TABLE MyFactSalesQuota
WITH (DISTRIBUTION = ROUND_ROBIN)
AS SELECT * FROM FactSalesQuota
OPTION (MAXDOP 1);

分配更多記憶體的方法

DWU 大小與使用者資源類別共同決定使用者查詢可用的記憶體容量。要增加載入查詢的記憶體授權，你可以增加 DWU 數量或增加資源類別。

要增加 DWU，請參見「如何擴展效能？」
若要更改查詢的資源類別，請參見「變更使用者資源類別」範例。

後續步驟

想了解更多提升 Synapse SQL 效能的方法，請參閱效能概覽。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-05-03