在 Azure Synapse Analytics 中將資料載入專用 SQL 池的最佳實務

Tip

Microsoft Fabric Data Warehouse 是一個企業規模的關聯式倉庫，建立在資料湖基礎上，具備未來準備架構、內建 AI 及新功能。如果你是資料倉儲新手，建議先從Fabric Data Warehouse開始。現有的專用 SQL 工作負載可升級至 Fabric，以取得資料科學、即時分析與報告等多項新功能。

在本文中，你會找到載入資料的建議與效能優化。

準備 Azure 儲存體中的資料

為了降低延遲，請將儲存層與專用 SQL 池共置。

當將資料匯出成 ORC 檔案格式時，當有大量文字欄位時，可能會出現 Java 記憶體不足錯誤。為了解決這個限制，只匯出部分欄位。

PolyBase 無法載入超過 1,000,000 位元組的資料列。當你將資料放入 Azure Blob 儲存或 Azure Data Lake Store 的文字檔時，其資料量必須少於 1,000,000 位元組。這個位元組限制無論資料表結構為何皆成立。

所有檔案格式都有不同的效能特性。為了最快載入，使用壓縮分隔文字檔。 UTF-8 與 UTF-16 的效能差異極小。

將大型壓縮檔案拆分成較小的壓縮檔案。

用足夠的運算能力執行工作負載

為了最快的載入速度，一次只執行一個載入任務。如果這不行，就同時執行最少數量的負載。如果你預期會有大型載入工作，建議在載入前先擴充專用的 SQL 池。

要用適當的運算資源執行負載，請建立專門用於執行負載的載入使用者。將每個載入使用者指派到特定的資源類別或工作負載群組。以某位負載用戶身份登入，然後執行負載。負載會以使用者的資源類別執行。此方法比嘗試更改使用者的資源類別以符合當前資源類別需求更簡單。

建立加載用戶

此範例建立一個被分類為特定工作負載群組的載入使用者。第一步是 連接主控 並建立登入。

   -- Connect to master
   CREATE LOGIN loader WITH PASSWORD = 'a123STRONGpassword!';

連接到專用的 SQL 池並建立一個使用者。以下程式碼假設你連接到名為 mySampleDataWarehouse 的資料庫。它展示了如何建立一個名為 loader 的使用者，並賦予使用者使用 COPY 陳述式建立資料表和載入的權限。接著將使用者分類到擁有最大資源的 DataLoads 工作負載群組。

   -- Connect to the dedicated SQL pool
   CREATE USER loader FOR LOGIN loader;
   GRANT ADMINISTER DATABASE BULK OPERATIONS TO loader;
   GRANT INSERT ON <yourtablename> TO loader;
   GRANT SELECT ON <yourtablename> TO loader;
   GRANT CREATE TABLE TO loader;
   GRANT ALTER ON SCHEMA::dbo TO loader;
   
   CREATE WORKLOAD GROUP DataLoads
   WITH ( 
       MIN_PERCENTAGE_RESOURCE = 0
       ,CAP_PERCENTAGE_RESOURCE = 100
       ,REQUEST_MIN_RESOURCE_GRANT_PERCENT = 100
	);

   CREATE WORKLOAD CLASSIFIER [wgcELTLogin]
   WITH (
	     WORKLOAD_GROUP = 'DataLoads'
       ,MEMBERNAME = 'loader'
   );

Important

這是一個極端例子，將 SQL 池中的 100 個% 資源分配給單一負載。這會提供最大並行數 1。請注意，這應該只用於初始負載，屆時你需要建立其他工作負載群組，並各自配置以平衡各工作負載的資源。

若要使用載入工作負載群組的資源執行載入，請以 loader 身分登入並執行載入。

允許多位使用者載入

通常需要多個使用者將資料載入資料倉儲。要使用 CREATE TABLE AS SELECT（Transact-SQL）需具備資料庫的 CONTROL 權限。控制權限授予對所有模式的存取控制權。你可能不希望所有載入使用者都能控制所有結構。若要限制權限，請使用 DENY CONTROL 陳述式。

例如，考慮資料庫結構，其中 A 部門使用 schema_A，而 B 部門使用 schema_B。而資料庫使用者 user_A 和 user_B 分別是 A 部門和 B 部門進行 PolyBase 載入的使用者。他們都已獲得 CONTROL 資料庫權限。模式A和模式B的創建者現在會用DENY來鎖定他們的模式：

   DENY CONTROL ON SCHEMA :: schema_A TO user_B;
   DENY CONTROL ON SCHEMA :: schema_B TO user_A;

User_A和user_B現在被鎖在另一個部門的架構之外。

載入至預備資料表

為了達到將資料移入資料倉儲表的最快載入速度，請先將資料載入暫存表。將預備資料表定義為堆積，並使用 Round-Robin 作為發佈選項。

請考慮載入通常是一個兩步驟的過程，首先載入到暫存表，然後將資料插入生產資料倉儲資料表。如果生產資料表使用雜湊發佈，若您使用雜湊發佈定義預備資料表，載入和插入的總時間可能會更快。載入至預備資料表需要較長時間，但將資料列插入生產資料表的第二個步驟不會跨發佈項目產生資料移動。

載入至資料行存放區索引

欄位儲存索引需要大量記憶體來將資料壓縮成高品質的列群組。為了達到最佳壓縮與索引效率，欄位儲存索引需要將每個列群組中最多壓縮 1,048,576 列。當記憶體壓力存在時，欄位儲存索引可能無法達到最大壓縮率。這會影響查詢的效能。深入了解，請參見欄位儲存記憶體優化。

為確保載入使用者有足夠記憶體以達到最大壓縮率，請使用屬於中大型資源類別的載入使用者。
載入足夠的資料列，以完全填充新的列組。在大量載入期間，每 1,048,576 個資料列會直接壓縮至資料行存放區，作為完整資料列群組。當載入的資料列少於 102,400 列時，會將這些列送至 deltastore，並在 B 樹索引中存放。如果載入的資料列太少，可能全部進入 Deltastore，而不會立即壓縮成資料行存放區格式。

使用 SQLBulkCopy API 或 BCP 時增加批次大小

使用 COPY 陳述式進行載入時，專用 SQL 池能提供最高的吞吐量。如果你無法用 COPY 載入，必須使用 SqLBulkCopy API 或 bcp，建議考慮增加批次大小以提升吞吐量。

Tip

建議將批次大小設定在 100K 到 1M 行之間，作為確定最佳批次容量的基準。

管理載入失敗

使用外部資料表的載入可能會因錯誤而失敗，出現 「查詢中止——讀取外部來源時達到最大拒絕閾值」的錯誤。此訊息表示您的外部資料包含不潔紀錄。若資料型態與欄位數與外部資料表的欄位定義不符，或資料不符合指定的外部檔案格式，則該資料記錄被視為髒紀錄。

要修正髒紀錄，請確保你的外部資料表和外部檔案格式定義正確，且外部資料符合這些定義。若部分外部資料記錄不潔，您可以使用「建立外部資料表」中的拒絕選項來拒絕這些查詢紀錄。

將資料插入生產表

使用 INSERT 陳述式一次性載入小型資料表，甚至定期重新載入查閱，搭配 INSERT INTO MyLookup VALUES (1, 'Type 1') 這類陳述式，可能已有足夠效能。不過，單一插入不如執行大量載入有效率。

如果您一整天有數千個或更多單一插入，請批次處理插入，以便大量載入。開發您的程序，將單一插入附加至檔案，然後建立另一個定期載入該檔案的程序。

載入後建立統計

為了提升查詢效能，重要的是在首次載入或資料發生重大變動後，對所有資料表的所有欄位建立統計資料。建立統計數據可以手動操作，也可以啟用自動建立統計數據。

關於統計的詳細說明，請參見統計。以下範例展示了如何在 Customer_Speed 表格的五欄手動建立統計資料。

create statistics [SensorKey] on [Customer_Speed] ([SensorKey]);
create statistics [CustomerKey] on [Customer_Speed] ([CustomerKey]);
create statistics [GeographyKey] on [Customer_Speed] ([GeographyKey]);
create statistics [Speed] on [Customer_Speed] ([Speed]);
create statistics [YearMeasured] on [Customer_Speed] ([YearMeasured]);

旋轉儲存鍵

定期更換 blob 儲存的存取金鑰是很好的安全做法。 Blob 儲存體帳戶有兩個儲存體金鑰，可讓您轉換金鑰。

要輪換 Azure 儲存體帳戶金鑰：

針對每個金鑰已變更的儲存帳戶，執行 ALTER DATABASE SCOPED CREDENTIAL。

範例：

原始金鑰被建立

CREATE DATABASE SCOPED CREDENTIAL my_credential WITH IDENTITY = 'my_identity', SECRET = 'key1'

將鍵從鍵1旋轉到鍵2

ALTER DATABASE SCOPED CREDENTIAL my_credential WITH IDENTITY = 'my_identity', SECRET = 'key2'

不需要對底層外部資料來源做其他變更。

欲了解更多關於PolyBase及設計擷取、載入與轉換（ELT）流程，請參閱Design ELT中的Azure Synapse Analytics。
如需載入教學課程，請使用 PolyBase 從 Azure Blob 儲存體將資料載入 Azure Synapse Analytics。
要監控資料負載，請參見使用 DMV 監控你的工作量。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-05-07