Synapse SQL 中的統計數據

Tip

Microsoft Fabric Data Warehouse 是一個企業規模的關聯式倉庫，建立在資料湖基礎上，具備未來準備架構、內建 AI 及新功能。如果你是資料倉儲新手，建議先從Fabric Data Warehouse開始。現有的專用 SQL 工作負載可升級至 Fabric，以取得資料科學、即時分析與報告等多項新功能。

本文中提供的是使用 Synapse SQL 資源建立和更新查詢優化統計數據的建議和範例：專用 SQL 集區和無伺服器 SQL 集區。

專用 SQL 集區中的統計數據

為何使用統計資料

專用 SQL 集區越瞭解您的數據，執行查詢的速度就越快。將數據載入專用 SQL 集區之後，收集數據的統計數據是您可以針對查詢優化執行的最重要動作之一。

專用 SQL 集區查詢最佳化工具是成本型最佳化工具。它會比較各種查詢方案的成本，然後選擇成本最低的方案。在大部分情況下，它會選擇將執行最快的計劃。

例如，如果優化器估計查詢篩選的日期會傳回一個數據列，則會選擇一個方案。如果系統估計所選日期會傳回 100 萬個資料列，就會傳回不同的計畫。

自動建立統計資料

當資料庫AUTO_CREATE_STATISTICS選項設定 ON為時，專用 SQL 集區引擎會分析傳入的用戶查詢，以取得遺漏的統計數據。如果缺少統計資料，查詢最佳化工具會在查詢述詞或聯結條件中的個別資料行上建立統計資料。

此函式可用來改善查詢計劃的基數估計值。

這很重要

統計資料的自動建立在預設設置中目前是開啟的。

您可以執行下列命令，檢查您的資料倉儲是否已設定 AUTO_CREATE_STATISTICS：

SELECT name, is_auto_create_stats_on
FROM sys.databases

如果您的資料倉儲未啟用AUTO_CREATE_STATISTICS，建議您執行下列命令來啟用此屬性：

ALTER DATABASE <yourdatawarehousename>
SET AUTO_CREATE_STATISTICS ON

這些語句會觸發自動建立統計數據：

SELECT
INSERT-SELECT（插入-選擇）
CTAS
更新
刪除
當偵測到包含聯結或述詞存在時，EXPLAIN

備註

系統不會在暫存資料表或外部資料表上自動建立統計資料。

自動建立統計數據會以同步方式完成。因此，如果您的數據行遺漏統計數據，可能會產生稍微降低的查詢效能。為單一資料行建立統計資料的時間，取決於資料表的大小。

若要避免效能降級，請在分析系統前，先執行基準負載，以確保已建立統計數據。

備註

統計數據的建立會記錄在不同的使用者上下文下的 sys.dm_pdw_exec_requests 中。

當自動建立統計資料時，其格式如下：WA_Sys<8 位數十六進位資料行識別碼>_<8 位數十六進位資料表識別碼>。您可以執行 DBCC SHOW_STATISTICS 命令來檢視已建立的統計資料：

DBCC SHOW_STATISTICS (<table_name>, <target>)

table_name是包含要顯示的統計數據的數據表名稱，不能是外部數據表。目標是您要顯示統計資訊之目標索引、統計資料或資料行的名稱。

更新統計資料

其中一個最佳做法，是隨著新增新的日期，每天在日期資料行上更新統計資料。每次將數據列載入數據倉儲時，就會加入新的載入日期或交易日期。這些新增會改變數據分布，使統計數據過時。

客戶數據表中國家或地區數據行的統計數據可能永遠不需要更新，因為值分佈通常不會變更。假設客戶間的分布固定不變，將新資料列加入至資料表的變異並不會改變資料分布。

不過，當您的數據倉儲只包含一個國家或地區，而且您從新的國家或地區引進數據時，您需要更新國家或地區數據行的統計數據。

以下是更新統計數據的建議：

類型	建議
統計資料更新的頻率	保守：每天在載入或轉換資料之後
取樣	小於 10 億個資料列，使用預設取樣 (20%)。資料列數超過 10 億時，使用 2% 的取樣。

判斷上次更新統計資料的時間

針對查詢進行疑難解答時要詢問的第一個問題是 「統計數據是否為最新狀態？

這個問題不能只靠資料的年齡來回答。如果基礎資料並沒有任何實質變更，最新的統計資料物件可能會是舊的。當資料行數目發生重大變化，或資料列中的值分佈發生顯著改變時，是時候更新統計數據了。

沒有動態管理檢視可用來判斷自上次更新統計數據之後，數據表中的數據是否已變更。了解統計資料的年齡，只能讓您看見部分情況。

您可以使用下列查詢來判斷每個資料表上上次更新統計數據的時間。

備註

如果數據行的值分佈有具體變更，則不論上次更新統計數據為何，您都應該更新統計數據。

SELECT
    sm.[name] AS [schema_name],
    tb.[name] AS [table_name],
    co.[name] AS [stats_column_name],
    st.[name] AS [stats_name],
    STATS_DATE(st.[object_id],st.[stats_id]) AS [stats_last_updated_date]
FROM
    sys.objects ob
    JOIN sys.stats st
        ON  ob.[object_id] = st.[object_id]
    JOIN sys.stats_columns sc
        ON  st.[stats_id] = sc.[stats_id]
        AND st.[object_id] = sc.[object_id]
    JOIN sys.columns co
        ON  sc.[column_id] = co.[column_id]
        AND sc.[object_id] = co.[object_id]
    JOIN sys.types  ty
        ON  co.[user_type_id] = ty.[user_type_id]
    JOIN sys.tables tb
        ON  co.[object_id] = tb.[object_id]
    JOIN sys.schemas sm
        ON  tb.[schema_id] = sm.[schema_id]
WHERE
    st.[user_created] = 1;

例如，數據倉儲中的日期數據行通常需要頻繁的統計數據更新。每次將數據列載入數據倉儲時，就會加入新的載入日期或交易日期。這些新增會改變數據分布，使統計數據過時。

客戶數據表中性別數據行的統計數據可能永遠不需要更新。假設客戶間的分布固定不變，將新資料列加入至資料表的變異並不會改變資料分布。

但是，如果您的數據倉儲只包含一個性別，而新的需求會導致多個性別，則您需要更新性別數據行的統計數據。

如需詳細資訊，請檢閱統計數據一文。

實作統計數據管理

擴充資料載入程序通常會是好主意，確保統計資料會在載入結束時更新。資料載入是資料表最常變化大小、值分布或兩者皆變的時機。因此，載入程序是實作某些管理程序的邏輯環節。

以下是在載入程序期間更新統計資料的指導準則：

請確定每個載入的資料表至少有一個統計資料物件已更新。此程序會將資料表大小 (資料列計數和頁面計數) 資訊更新，作為統計資料更新的一部分。
著重於參與 JOIN、GROUP BY、ORDER BY 和 DISTINCT 子句的資料行。
請考慮更頻繁地更新「遞增索引鍵」資料行，例如交易日期，因為這些值不會包含在統計資料長條圖中。
請考慮減少更新靜態分配欄位的頻率。
請記住，每個統計資料物件會依序更新。僅只實作 UPDATE STATISTICS <TABLE_NAME> 不一定理想，尤其是對具有許多統計資料物件的寬型資料表而言。

如需詳細資訊，請參閱基數估計。

範例：建立統計資料

下列範例顯示如何使用各種選項來建立統計資料。您針對每個數據行使用的選項取決於資料的特性，以及數據行在查詢中的使用方式。

使用預設選項建立單欄統計圖表

若要建立資料行的統計資料，請提供統計資料物件的名稱和資料行的名稱。此語法會使用所有預設選項。根據預設，專用 SQL 資料池在建立統計資料時會對資料表進行 20 百分比 的取樣。

CREATE STATISTICS [statistics_name]
    ON [schema_name].[table_name]([column_name]);

例如：

CREATE STATISTICS col1_stats
    ON dbo.table1 (col1);

檢查每列資料，以建立單欄統計數據

20% 的預設取樣率足以應付大部分的情況。不過，您可以調整取樣率。若要取樣整個資料表，請使用此語法：

CREATE STATISTICS [statistics_name]
    ON [schema_name].[table_name]([column_name])
    WITH FULLSCAN;

例如：

CREATE STATISTICS col1_stats
    ON dbo.table1 (col1)
    WITH FULLSCAN;

指定取樣大小以建立單欄統計資料

您有的另一個選項是將樣本大小指定為百分比：

CREATE STATISTICS col1_stats
    ON dbo.table1 (col1)
    WITH SAMPLE 50 PERCENT;

建立單欄位統計，只對某些資料列進行分析

您也可以在數據表中部分的數據列上建立統計數據，這稱為已篩選的統計數據。

例如，當您計劃查詢大型分割資料表的特定分割時，可以使用篩選的統計資料。藉由只針對分割區值建立統計數據，統計數據的精確度將會改善。您也會體驗到查詢效能的改善。

這個範例會建立某個值範圍的統計資料。您可以輕鬆地定義這些值以符合分割中的值範圍。

CREATE STATISTICS stats_col1
    ON table1(col1)
    WHERE col1 > '2000101' AND col1 < '20001231';

備註

若要讓查詢最佳化工具在選擇分散式查詢計劃時考慮使用篩選的統計資料，查詢必須符合統計資料物件的定義。使用上述範例，查詢的 WHERE 子句需要指定介於 2000101 和 20001231 之間的 col1 值。

使用單欄所有選項建立統計資料

您也可以將選項結合在一起。以下範例會使用自訂樣本大小建立篩選的統計資料物件：

CREATE STATISTICS stats_col1
    ON table1 (col1)
    WHERE col1 > '2000101' AND col1 < '20001231'
    WITH SAMPLE 50 PERCENT;

如需完整參考，請參閱 CREATE STATISTICS。

建立多欄統計

若要建立多重資料行統計資料物件，請利用上述範例，但要指定更多資料行。

備註

用來估計查詢結果中資料列數目的長條圖，只適用於統計資料物件定義中所列的第一個資料行。

在此範例中，直方圖位於 product_category。跨數據行統計數據會在 product_category 和 product_sub_category上計算：

CREATE STATISTICS stats_2cols
    ON table1 (product_category, product_sub_category)
    WHERE product_category > '2000101' AND product_category < '20001231'
    WITH SAMPLE 50 PERCENT;

由於 product_category 與 product_sub_category之間存在相互關聯，因此如果同時存取這些數據行，多數據行統計數據物件可能會很有用。查詢此數據表時，多數據行統計數據會改善聯結、GROUP BY 匯總、相異計數和 WHERE 篩選的基數估計（只要主要統計數據數據行是篩選的一部分）。

對資料表中的所有資料行建立統計資料

建立統計數據的其中一種方式是在建立數據表之後發出 CREATE STATISTICS 命令：

CREATE TABLE dbo.table1
(
   col1 int
,  col2 int
,  col3 int
)
WITH
  (
    CLUSTERED COLUMNSTORE INDEX
  )
;

CREATE STATISTICS stats_col1 on dbo.table1 (col1);
CREATE STATISTICS stats_col2 on dbo.table2 (col2);
CREATE STATISTICS stats_col3 on dbo.table3 (col3);

使用預存程式來建立資料庫中所有數據行的統計數據

在 SQL Server 中，SQL 集區沒有 sp_create_stats 的相當系統預存程序。此預存程序會在資料庫尚未具有統計資料的每個欄位上建立單一欄位統計物件。

下列範例將協助您開始使用資料庫設計。您可以隨意調整它以符合您的需求：

CREATE PROCEDURE    [dbo].[prc_sqldw_create_stats]
(   @create_type    tinyint -- 1 default, 2 Fullscan, 3 Sample
,   @sample_pct     tinyint
)
AS

IF @create_type IS NULL
BEGIN
    SET @create_type = 1;
END;

IF @create_type NOT IN (1,2,3)
BEGIN
    THROW 151000,'Invalid value for @stats_type parameter. Valid range 1 (default), 2 (fullscan) or 3 (sample).',1;
END;

IF @sample_pct IS NULL
BEGIN;
    SET @sample_pct = 20;
END;

IF OBJECT_ID('tempdb..#stats_ddl') IS NOT NULL
BEGIN;
    DROP TABLE #stats_ddl;
END;

CREATE TABLE #stats_ddl
WITH    (   DISTRIBUTION    = HASH([seq_nmbr])
        ,   LOCATION        = USER_DB
        )
AS
WITH T
AS
(
SELECT      t.[name]                        AS [table_name]
,           s.[name]                        AS [table_schema_name]
,           c.[name]                        AS [column_name]
,           c.[column_id]                   AS [column_id]
,           t.[object_id]                   AS [object_id]
,           ROW_NUMBER()
            OVER(ORDER BY (SELECT NULL))    AS [seq_nmbr]
FROM        sys.[tables] t
JOIN        sys.[schemas] s         ON  t.[schema_id]       = s.[schema_id]
JOIN        sys.[columns] c         ON  t.[object_id]       = c.[object_id]
LEFT JOIN   sys.[stats_columns] l   ON  l.[object_id]       = c.[object_id]
                                    AND l.[column_id]       = c.[column_id]
                                    AND l.[stats_column_id] = 1
LEFT JOIN    sys.[external_tables] e    ON    e.[object_id]        = t.[object_id]
WHERE       l.[object_id] IS NULL
AND            e.[object_id] IS NULL -- not an external table
)
SELECT  [table_schema_name]
,       [table_name]
,       [column_name]
,       [column_id]
,       [object_id]
,       [seq_nmbr]
,       CASE @create_type
        WHEN 1
        THEN    CAST('CREATE STATISTICS '+QUOTENAME('stat_'+table_schema_name+ '_' + table_name + '_'+column_name)+' ON '+QUOTENAME(table_schema_name)+'.'+QUOTENAME(table_name)+'('+QUOTENAME(column_name)+')' AS VARCHAR(8000))
        WHEN 2
        THEN    CAST('CREATE STATISTICS '+QUOTENAME('stat_'+table_schema_name+ '_' + table_name + '_'+column_name)+' ON '+QUOTENAME(table_schema_name)+'.'+QUOTENAME(table_name)+'('+QUOTENAME(column_name)+') WITH FULLSCAN' AS VARCHAR(8000))
        WHEN 3
        THEN    CAST('CREATE STATISTICS '+QUOTENAME('stat_'+table_schema_name+ '_' + table_name + '_'+column_name)+' ON '+QUOTENAME(table_schema_name)+'.'+QUOTENAME(table_name)+'('+QUOTENAME(column_name)+') WITH SAMPLE '+CONVERT(varchar(4),@sample_pct)+' PERCENT' AS VARCHAR(8000))
        END AS create_stat_ddl
FROM T
;

DECLARE @i INT              = 1
,       @t INT              = (SELECT COUNT(*) FROM #stats_ddl)
,       @s NVARCHAR(4000)   = N''
;

WHILE @i <= @t
BEGIN
    SET @s=(SELECT create_stat_ddl FROM #stats_ddl WHERE seq_nmbr = @i);

    PRINT @s
    EXEC sp_executesql @s
    SET @i+=1;
END

DROP TABLE #stats_ddl;

若要使用預設值為資料表中的所有資料行建立統計資料，請執行預存程序。

EXEC [dbo].[prc_sqldw_create_stats] 1, NULL;

若要使用 fullscan 建立資料表中所有數據行的統計數據，請呼叫此程式：

EXEC [dbo].[prc_sqldw_create_stats] 2, NULL;

若要在數據表中的所有數據行上建立取樣統計數據，請輸入 3，以及取樣百分比。下列程式會使用 20% 的取樣率。

EXEC [dbo].[prc_sqldw_create_stats] 3, 20;

範例：更新統計資料

若要更新統計資料，您可以：

更新一個統計資料物件。指定您要更新的統計資料物件名稱。
更新資料表上的所有統計資料物件。指定資料表名稱，而不是一個特定統計資料物件。

更新一個特定統計資料物件

使用下列語法來更新特定統計資料物件：

UPDATE STATISTICS [schema_name].[table_name]([stat_name]);

例如：

UPDATE STATISTICS [dbo].[table1] ([stats_col1]);

藉由更新特定統計資料物件，即可減少管理統計資料所需的時間和資源。此動作需要一些想法，才能選取要更新的最佳統計數據物件。

更新資料表中的所有統計資料

更新資料表上所有統計資料物件的簡單方法為：

UPDATE STATISTICS [schema_name].[table_name];

例如：

UPDATE STATISTICS dbo.table1;

UPDATE STATISTICS 語句很容易使用。只要記得，它會更新資料表上的所有統計資料，因此會引發比實際需要更多的工作。

如果效能不是問題，這個方法是最簡單且最完整的方式來保證統計數據是最新的。

備註

更新數據表上的所有統計數據時，專用 SQL 集區會執行掃描來取樣每個統計數據對象的數據表。如果資料表很大，而且有許多資料行以及許多統計資料，則根據需求來更新個別統計資料可能比較有效率。

如需程序的實作 UPDATE STATISTICS ，請參閱臨時表。實作方法與上述的 CREATE STATISTICS 程序有點不同，但結果相同。如需完整的語法，請參閱更新統計數據。

統計資料中繼資料

您可利用數個系統檢視和函式來尋找統計資料相關資訊。例如，您可以使用 STATS_DATE（）函式來查看統計數據物件是否過期。 STATS_DATE（）可讓您查看上次建立或更新統計數據的時間。

統計資料的目錄檢視

這些系統檢視提供統計資料的相關資訊：

目錄檢視	說明
sys.columns	每個資料行各有一個資料列。
sys.objects	資料庫中的每個物件各有一個資料列。
sys.schemas	資料庫中的每個結構描述各有一個資料列。
sys.stats	每個統計資料物件各有一個資料列。
sys.stats_columns	統計資料物件中的每個資料行各有一個資料列。連結回 sys.columns。
sys.tables	每個資料表各有一個資料列 (包含外部資料表)。
sys.table_types	每個數據類型各有一個數據列。

統計資料的系統函式

這些系統函式很適合用於處理統計資料：

系統功能	說明
STATS_DATE	上次更新統計數據物件的日期。
DBCC SHOW_STATISTICS	統計數據物件所瞭解之值分佈的摘要層級和詳細資訊。

將統計資料資料行和函式結合成一個檢視

此檢視會將與來自 STATS_DATE（）函式之統計數據和結果相關的數據行結合在一起。

CREATE VIEW dbo.vstats_columns
AS
SELECT
        sm.[name]                           AS [schema_name]
,       tb.[name]                           AS [table_name]
,       st.[name]                           AS [stats_name]
,       st.[filter_definition]              AS [stats_filter_definition]
,       st.[has_filter]                     AS [stats_is_filtered]
,       STATS_DATE(st.[object_id],st.[stats_id])
                                            AS [stats_last_updated_date]
,       co.[name]                           AS [stats_column_name]
,       ty.[name]                           AS [column_type]
,       co.[max_length]                     AS [column_max_length]
,       co.[precision]                      AS [column_precision]
,       co.[scale]                          AS [column_scale]
,       co.[is_nullable]                    AS [column_is_nullable]
,       co.[collation_name]                 AS [column_collation_name]
,       QUOTENAME(sm.[name])+'.'+QUOTENAME(tb.[name])
                                            AS two_part_name
,       QUOTENAME(DB_NAME())+'.'+QUOTENAME(sm.[name])+'.'+QUOTENAME(tb.[name])
                                            AS three_part_name
FROM    sys.objects                         AS ob
JOIN    sys.stats           AS st ON    ob.[object_id]      = st.[object_id]
JOIN    sys.stats_columns   AS sc ON    st.[stats_id]       = sc.[stats_id]
                            AND         st.[object_id]      = sc.[object_id]
JOIN    sys.columns         AS co ON    sc.[column_id]      = co.[column_id]
                            AND         sc.[object_id]      = co.[object_id]
JOIN    sys.types           AS ty ON    co.[user_type_id]   = ty.[user_type_id]
JOIN    sys.tables          AS tb ON    co.[object_id]      = tb.[object_id]
JOIN    sys.schemas         AS sm ON    tb.[schema_id]      = sm.[schema_id]
WHERE   1=1
AND     st.[user_created] = 1
;

DBCC SHOW_STATISTICS() 範例

DBCC SHOW_STATISTICS（）會顯示在統計數據物件內保存的數據。此資料來自三個部分：

頁首
密度向量
長條圖

標頭是有關統計數據的元數據。此直方圖會顯示統計資料物件的第一個索引鍵資料行之值的分佈。

密度向量可測量跨資料行關聯性。專用 SQL 集區會使用統計資料物件中的任何資料來計算基數估計值。

顯示標頭、密度和長條圖

這個簡單範例顯示統計資料物件的所有三個部分：

DBCC SHOW_STATISTICS([<schema_name>.<table_name>],<stats_name>)

例如：

DBCC SHOW_STATISTICS ('dbo.table1', 'stats_col1');

顯示 DBCC SHOW_STATISTICS() 的一或多個部分

如果您只想要檢視特定部分，請使用 WITH 子句並指定您要查看哪些部分：

DBCC SHOW_STATISTICS([<schema_name>.<table_name>],<stats_name>)
    WITH stat_header, histogram, density_vector

例如：

DBCC SHOW_STATISTICS ('dbo.table1', 'stats_col1')
    WITH histogram, density_vector

DBCC SHOW_STATISTICS() 差異

相較於 SQL Server，專用 SQL 集區對 DBCC SHOW_STATISTICS() 的實作更為嚴格：

不支援未記載的功能。
無法使用 Stats_stream。
無法聯結特定統計數據子集的結果。例如，STAT_HEADER JOIN DENSITY_VECTOR。
無法為訊息隱藏設定NO_INFOMSGS。
無法使用統計數據名稱周圍的方括弧。
無法使用資料行名稱來識別統計數據物件。
不支援自訂錯誤 2767。

無伺服器 SQL 集區中的統計數據

統計資料是針對特定資料集 (儲存路徑) 的特定資料行所建立。

備註

無法為 LOB 資料行建立統計資料。

為何使用統計資料

無伺服器 SQL 集區越瞭解您的數據，其執行查詢的速度就越快。收集數據是您可以執行的最重要動作之一，以優化您的查詢。

無伺服器 SQL 集區查詢優化器是成本型優化器。它會比較各種查詢方案的成本，然後選擇成本最低的方案。在大部分情況下，它會選擇將執行最快的計劃。

例如，如果優化器估計查詢篩選的日期會傳回一個數據列，則會選擇一個方案。如果估計選取的日期會傳回 1 百萬個數據列，則會挑選不同的方案。

自動建立統計資料

無伺服器 SQL 集區會分析傳入的用戶查詢，以取得遺漏的統計數據。如果遺漏統計資料，查詢最佳化工具會在查詢述詞或聯結條件中建立個別資料行的統計資料，以改善查詢計劃的基數估計值。

SELECT 陳述式會觸發自動建立統計資料。

備註

為了自動生成統計數據，會進行取樣，而在大多數情況下，取樣百分比會小於 100%。每個檔案格式的流程都相同。請記住，當使用解析器版本 1.0 讀取 CSV 時，不支援取樣，且在取樣百分比小於 100% 的情況下，不會自動建立統計數據。對於估計基數低 (資料列數少) 的小型資料表，自動建立統計資料會以 100% 的取樣百分比觸發。這基本上表示會觸發 fullscan，且即使是使用剖析器版本 1.0 的 CSV，也會自動建立統計資料。

自動建立統計數據會以同步方式完成，因此如果您的數據行遺漏統計數據，可能會產生稍微降低的查詢效能。為單一資料行建立統計資料的時間，取決於目標檔案的大小。

手動建立統計數據

無伺服器 SQL 集區可讓您手動建立統計數據。如果您使用剖析器 1.0 版搭配 CSV，您可能必須手動建立統計數據，因為此剖析器版本不支援取樣。除非取樣百分比為 100%，否則不會自動生成解析器版本 1.0 的統計數據。

如需如何手動建立統計數據的指示，請參閱下列範例。

更新統計資料

檔案中的數據變更、刪除和新增檔案會導致數據散發變更，並讓統計數據過期。在此情況下，必須更新統計數據。

如果數據大幅變更，無伺服器 SQL 集區會自動重新建立 OPENROWSET 數據行的統計數據。每次自動建立統計資料時，也會儲存資料集的目前狀態：檔案路徑、大小、上次修改日期。

當統計數據過時時，將會建立新的統計數據。演算法會逐一查看數據，並將它與數據集的目前狀態進行比較。如果變更的大小大於特定閾值，則會刪除舊的統計數據，並會在新的數據集上重新建立。

手動統計數據永遠不會宣告為過時。

備註

在自動重新建立統計資料時會進行取樣，而且在大部分情況下，取樣百分比會小於 100%。每個檔案格式的流程都相同。請記住，當使用剖析器 1.0 版讀取 CSV 時，不支持取樣，且取樣百分比小於 100 時，統計數據不會自動重新建立%。在此情況下，您必須手動刪除和重新建立統計數據。請查看下列範例，以瞭解如何刪除和建立統計。對於估計基數低 (資料列數少) 的小型資料表，自動重新建立統計資料會以 100% 的取樣百分比觸發。這基本上表示會觸發 fullscan，且即使是使用剖析器版本 1.0 的 CSV，也會自動建立統計資料。

針對查詢進行疑難解答時要詢問的第一個問題是 「統計數據是否為最新狀態？

當數據列數目大幅變更，或數據行值分佈有重大變更時， 是時候 更新統計數據了。

備註

如果數據行的值分佈有具體變更，則不論上次更新統計數據為何，您都應該更新統計數據。

實作統計數據管理

您可能會希望擴展您的數據管線，以確保當檔案的新增、刪除或變更導致數據顯著改變時，統計數據能得到更新。

以下提供指導原則，以便更新您的統計資料：

確定數據集至少有一個統計數據物件已更新。這會在統計數據更新時更新大小資訊（包括列數和頁數）。
請著重於參與 WHERE、JOIN、GROUP BY、ORDER BY 和 DISTINCT 子句的資料行。
請更頻繁地更新「遞增索引鍵」欄位，例如交易日期，因為這些值不會包含在統計數據直方圖中。
靜態分佈欄位的更新頻率要低一些。

如需詳細資訊，請參閱基數估計。

範例：在 OPENROWSET 路徑中建立欄位的統計數據

下列範例示範如何使用各種選項在 Azure Synapse 無伺服器 SQL 集區中建立統計數據。您針對每個數據行使用的選項取決於資料的特性，以及數據行在查詢中的使用方式。如需這些範例中使用的預存程式詳細資訊，請檢閱 sys.sp_create_openrowset_statistics 和 sys.sp_drop_openrowset_statistics，這些預存程式僅適用於無伺服器 SQL 集區。

備註

目前您只能建立單欄統計資料。

執行 sp_create_openrowset_statistics 和 sp_drop_openrowset_statistics 需要下列權限：ADMINISTER BULK OPERATIONS 或 ADMINISTER DATABASE BULK OPERATIONS。

下列預存程式可用來建立統計資料：

sys.sp_create_openrowset_statistics [ @stmt = ] N'statement_text'

自變數：[ @stmt = ] N'statement_text' - 指定 Transact-SQL 語句，傳回要用於統計數據的數據行值。您可以使用 TABLESAMPLE 來指定要使用的數據樣本。如果未指定 TABLESAMPLE，則會使用 FULLSCAN。

<tablesample_clause> ::= TABLESAMPLE ( sample_number PERCENT )

備註

如果您使用剖析器 1.0 版，CSV 取樣將無法運作，只有具有剖析器 1.0 版的 CSV 才支援 FULLSCAN。

檢查每列資料，以建立單欄統計數據

若要在數據行上建立統計數據，請提供查詢，以傳回您需要統計數據的數據行。

預設情況下，如果您未在手動建立統計數據時另行指定，無伺服器 SQL 集區會在建立統計數據時使用數據集中提供的 100% 數據。

例如，若要針對以 us_population.csv 檔案為基礎之資料集的人口資料行，使用預設選項 (FULLSCAN) 建立統計資料：


EXEC sys.sp_create_openrowset_statistics N'SELECT 
    population
FROM OPENROWSET(
    BULK ''https://azureopendatastorage.blob.core.windows.net/censusdatacontainer/raw_us_population_county/us_population.csv'',
    FORMAT = ''CSV'',
    PARSER_VERSION = ''2.0'',
    HEADER_ROW = TRUE)
AS [r]'

指定取樣大小以建立單欄統計資料

您可以將樣本大小指定為百分比：

/* make sure you have credentials for storage account access created
IF EXISTS (SELECT * FROM sys.credentials WHERE name = 'https://azureopendatastorage.blob.core.windows.net/censusdatacontainer')
DROP CREDENTIAL [https://azureopendatastorage.blob.core.windows.net/censusdatacontainer]
GO

CREATE CREDENTIAL [https://azureopendatastorage.blob.core.windows.net/censusdatacontainer]  
WITH IDENTITY='SHARED ACCESS SIGNATURE',  
SECRET = ''
GO
*/

EXEC sys.sp_create_openrowset_statistics N'SELECT payment_type
FROM OPENROWSET(
        BULK ''https://sqlondemandstorage.blob.core.windows.net/parquet/taxi/year=2018/month=6/*.parquet'',
         FORMAT = ''PARQUET''
    ) AS [nyc]
    TABLESAMPLE(5 PERCENT)
'

範例：更新統計資料

若要更新統計數據，您必須刪除並創建統計資料。如需詳細資訊，請檢閱 sys.sp_create_openrowset_statistics 和 sys.sp_drop_openrowset_statistics。

sys.sp_drop_openrowset_statistics 預存程序可用來卸除統計資料：

sys.sp_drop_openrowset_statistics [ @stmt = ] N'statement_text'

備註

執行 sp_create_openrowset_statistics 和 sp_drop_openrowset_statistics 需要下列權限：ADMINISTER BULK OPERATIONS 或 ADMINISTER DATABASE BULK OPERATIONS。

自變數：[ @stmt = ] N'statement_text' - 指定建立統計數據時所使用的相同 Transact-SQL 語句。

若要更新數據集中以 population.csv 檔案為基礎的「年份」欄位統計數據，您需要刪除並重新建立該統計數據：

EXEC sys.sp_drop_openrowset_statistics N'SELECT payment_type
FROM OPENROWSET(
        BULK ''https://sqlondemandstorage.blob.core.windows.net/parquet/taxi/year=2018/month=6/*.parquet'',
         FORMAT = ''PARQUET''
    ) AS [nyc]
    TABLESAMPLE(5 PERCENT)
'
GO

/* make sure you have credentials for storage account access created
IF EXISTS (SELECT * FROM sys.credentials WHERE name = 'https://azureopendatastorage.blob.core.windows.net/censusdatacontainer')
DROP CREDENTIAL [https://azureopendatastorage.blob.core.windows.net/censusdatacontainer]
GO

CREATE CREDENTIAL [https://azureopendatastorage.blob.core.windows.net/censusdatacontainer]  
WITH IDENTITY='SHARED ACCESS SIGNATURE',  
SECRET = ''
GO
*/

EXEC sys.sp_create_openrowset_statistics N'SELECT payment_type
FROM OPENROWSET(
        BULK ''https://sqlondemandstorage.blob.core.windows.net/parquet/taxi/year=2018/month=6/*.parquet'',
         FORMAT = ''PARQUET''
    ) AS [nyc]
    TABLESAMPLE(5 PERCENT)
'

範例：為外部資料表欄建立統計數據

下列範例示範如何使用各種選項來建立統計數據。您針對每個數據行使用的選項取決於資料的特性，以及數據行在查詢中的使用方式。

備註

目前您只能建立單欄統計資料。

若要建立資料行的統計資料，請提供統計資料物件的名稱和資料行的名稱。

CREATE STATISTICS statistics_name
ON { external_table } ( column )
    WITH
        { FULLSCAN
          | [ SAMPLE number PERCENT ] }
        , { NORECOMPUTE }

自變數：external_table 指定應該建立統計數據的外部數據表。

FULLSCAN 計算統計數據，方法是掃描所有數據列。 FULLSCAN 和 SAMPLE 100 PERCENT 的結果相同。 FULLSCAN 不能搭配 SAMPLE 選項一起使用。

SAMPLE number PERCENT 指定數據表或索引檢視表中的近似百分比或數據列數目，以供查詢優化器在建立統計數據時使用。數位可以是 0 到 100。

SAMPLE 不能和 FULLSCAN 選項一起使用。

備註

如果您使用剖析器 1.0 版，CSV 取樣將無法運作，只有具有剖析器 1.0 版的 CSV 才支援 FULLSCAN。

檢查每列資料，以建立單欄統計數據

CREATE STATISTICS sState
    on census_external_table (STATENAME)
    WITH FULLSCAN, NORECOMPUTE

指定取樣大小以建立單欄統計資料

-- following sample creates statistics with sampling 5%
CREATE STATISTICS sState
    on census_external_table (STATENAME)
    WITH SAMPLE 5 percent, NORECOMPUTE

範例：更新統計資料

若要更新統計數據，您必須刪除並創建統計資料。先卸除統計資料：

DROP STATISTICS census_external_table.sState

並建立統計數據：

CREATE STATISTICS sState
    on census_external_table (STATENAME)
    WITH FULLSCAN, NORECOMPUTE

統計資料中繼資料

備註

統計資料中繼資料僅適用於外部資料表資料行。統計資料中繼資料不適用於 OPENROWSET 資料行。

統計資料的目錄檢視

這些系統檢視提供統計資料的相關資訊：

目錄檢視	說明
sys.columns	每個資料行各有一個資料列。
sys.objects	資料庫中的每個物件各有一個資料列。
sys.schemas	資料庫中的每個結構描述各有一個資料列。
sys.stats	每個統計資料物件各有一個資料列。
sys.stats_columns	統計資料物件中的每個資料行各有一個資料列。連結回 sys.columns。
sys.tables	每個資料表各有一個資料列 (包含外部資料表)。
sys.table_types	每個數據類型各有一個數據列。

統計資料的系統函式

這些系統函式很適合用於處理統計資料：

系統功能	說明
STATS_DATE	上次更新統計數據物件的日期。

將統計資料資料行和函式結合成一個檢視

此檢視會將與來自 STATS_DATE（）函式之統計數據和結果相關的數據行結合在一起。

CREATE VIEW dbo.vstats_columns
AS
SELECT
        sm.[name]                           AS [schema_name]
,       tb.[name]                           AS [table_name]
,       st.[name]                           AS [stats_name]
,       st.[filter_definition]              AS [stats_filter_definition]
,       st.[has_filter]                     AS [stats_is_filtered]
,       STATS_DATE(st.[object_id],st.[stats_id])
                                            AS [stats_last_updated_date]
,       co.[name]                           AS [stats_column_name]
,       ty.[name]                           AS [column_type]
,       co.[max_length]                     AS [column_max_length]
,       co.[precision]                      AS [column_precision]
,       co.[scale]                          AS [column_scale]
,       co.[is_nullable]                    AS [column_is_nullable]
,       co.[collation_name]                 AS [column_collation_name]
,       QUOTENAME(sm.[name])+'.'+QUOTENAME(tb.[name])
                                            AS two_part_name
,       QUOTENAME(DB_NAME())+'.'+QUOTENAME(sm.[name])+'.'+QUOTENAME(tb.[name])
                                            AS three_part_name
FROM    sys.objects                         AS ob
JOIN    sys.stats           AS st ON    ob.[object_id]      = st.[object_id]
JOIN    sys.stats_columns   AS sc ON    st.[stats_id]       = sc.[stats_id]
                            AND         st.[object_id]      = sc.[object_id]
JOIN    sys.columns         AS co ON    sc.[column_id]      = co.[column_id]
                            AND         sc.[object_id]      = co.[object_id]
JOIN    sys.types           AS ty ON    co.[user_type_id]   = ty.[user_type_id]
JOIN    sys.tables          AS tb ON    co.[object_id]      = tb.[object_id]
JOIN    sys.schemas         AS sm ON    tb.[schema_id]      = sm.[schema_id]
WHERE   st.[user_created] = 1
;

後續步驟

若要進一步改善專用 SQL 集區的查詢效能，請參閱監視您的工作負載和專用 SQL 集區的最佳做法。

若要進一步改善無伺服器 SQL 集區的查詢效能，請參閱無伺服器 SQL 集區的最佳做法。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-03-29

Synapse SQL 中的統計數據

專用 SQL 集區中的統計數據

為何使用統計資料

自動建立統計資料

更新統計資料

判斷上次更新統計資料的時間

實作統計數據管理

範例：建立統計資料

使用預設選項建立單欄統計圖表

檢查每列資料，以建立單欄統計數據

指定取樣大小以建立單欄統計資料

建立單欄位統計，只對某些資料列進行分析

使用單欄所有選項建立統計資料

建立多欄統計

對資料表中的所有資料行建立統計資料

使用預存程式來建立資料庫中所有數據行的統計數據

範例：更新統計資料

更新一個特定統計資料物件

更新資料表中的所有統計資料

統計資料中繼資料

統計資料的目錄檢視

統計資料的系統函式

將統計資料資料行和函式結合成一個檢視

DBCC SHOW_STATISTICS() 範例

顯示標頭、密度和長條圖

顯示 DBCC SHOW_STATISTICS() 的一或多個部分

DBCC SHOW_STATISTICS() 差異

無伺服器 SQL 集區中的統計數據

為何使用統計資料

自動建立統計資料

手動建立統計數據

更新統計資料

實作統計數據管理

範例：在 OPENROWSET 路徑中建立欄位的統計數據

檢查每列資料，以建立單欄統計數據

指定取樣大小以建立單欄統計資料

範例：更新統計資料

範例：為外部資料表欄建立統計數據

檢查每列資料，以建立單欄統計數據

指定取樣大小以建立單欄統計資料

範例：更新統計資料

統計資料中繼資料

統計資料的目錄檢視

統計資料的系統函式

將統計資料資料行和函式結合成一個檢視

後續步驟

意見反應

其他資源