共用方式為


Azure Synapse Analytics 常見問題集

您將在本指南中找到 Azure Synapse Analytics 最常遇到的問題。

一般

如何使用 RBAC 角色來保護我的工作區?

Azure Synapse 引入了多種角色及其可指派的範圍,以簡化工作區的安全性設定。

Synapse RBAC 角色:

  • Synapse 管理員
  • Synapse SQL 管理員
  • Synapse Spark 管理員
  • Synapse 參與者
  • Synapse 成品發行者
  • Synapse 成品使用者
  • Synapse 計算操作員
  • Synapse 認證使用者
  • Synapse 連結資料管理員
  • Synapse 使用者

若要保護您的 Synapse 工作區,請將 RBAC 角色指派給這些 RBAC 範圍:

  • 工作區
  • Spark 集區
  • 整合執行階段
  • 連結的服務
  • 認證

此外,使用專用 SQL 集區時,您也能享有所有您熟悉且信賴的相同安全性功能。

如何控制專用 SQL 集區、無伺服器 SQL 集區和無伺服器 Spark 集區?

作為起點,Azure Synapse 可與 Azure 訂用帳戶層級可用的內建成本分析和成本警示搭配使用。

  • 專用 SQL 集區 - 您可以直接查看成本並控制成本,因為您建立並指定專用 SQL 集區的大小。 您可以進一步控制哪些使用者可以使用 Azure RBAC 角色建立或調整專用 SQL 集區。

  • 無伺服器 SQL 集區 - 您擁有監視和成本管理控制項,可讓您設定每日、每週及每月的費用上限。 如需詳細資訊,請參閱無伺服器 SQL 集區的成本管理

  • 無伺服器 Spark 集區 - 您可以限制誰可以使用 Synapse RBAC 角色建立 Spark 集區。

Synapse 工作區是否會在 GA 時支援物件的資料夾組織與細粒度管理?

Synapse 工作區支援使用者定義的資料夾。

我可以將多個 Power BI 工作區連結至單一 Azure Synapse Workspace 嗎?

是,從 2021 年 6 月 10 日起,Synapse Studio 已允許您將多個 Power BI 工作區新增至單一 Azure Synapse Workspace。

這很重要

Synapse Link for Cosmos DB 已不再支援新專案。 不要使用這個功能。

請為 Microsoft Fabric 使用 Azure Cosmos DB 鏡像,該 Fabric 現在已是正式發行版。 鏡像提供相同的零 ETL 優勢,且與 Microsoft Fabric 完全整合。 想了解更多,請參閱 Cosmos DB 鏡像概覽

適用於 SQL 的 Azure Synapse Link 已正式推出,同時支援 SQL Server 2022 和 Azure SQL Database。 如需詳細資訊,請參閱什麼是適用於 SQL 的 Azure Synapse Link?

Azure Synapse workspace 是否支援 CI/CD?

是! 所有管線成品、筆記本、SQL 指令碼和 Spark 作業定義都將儲存於 Git 中。 所有集區定義都會以 Azure Resource Manager (ARM) 範本的形式儲存在 Git 中。 專用 SQL 集區物件 (結構描述、資料表、檢視等等) 將會使用 CI/CD 支援的資料庫專案來管理。 如需詳細資訊,請參閱此 CI 和 CD 指南

專用 SQL 集區和無伺服器集區之間的功能差異為何?

功能和需求在兩種類型的集區之間有所不同。 差異包括資料庫物件、查詢語言功能、安全性、工具、資料存取和資料格式。 如需 SQL 集區和無伺服器集區的詳細比較,請瀏覽集區比較。 有關使用任一類型的集區時的最佳作法,請檢視專用 SQL 集區的最佳做法無伺服器 SQL 集區的最佳做法

什麼是 Delta 資料表,以及為何應該使用它們?

Lakehouse 是以開放式直接存取資料格式為基礎,例如 Apache Parquet。 它具有機器學習和資料科學的第一級支援。 Delta 資料表是 Delta Lake 中包含的資料檢視,它支援 Apache Spark DataFrame 讀取和寫入 API 所提供的大部分選項。 Lakehouses 可協助處理資料倉儲的重大挑戰,例如資料陳舊性、可靠性、總擁有成本,以及資料鎖定。 在 Delta 資料表上,可以使用自動壓縮和自適性查詢計劃等最佳化功能。 如需 Delta Lake 的詳細指南,請瀏覽 Delta Lake 指南

什麼是自動壓縮?

自動壓縮是自動最佳化 Delta 資料表的兩個互補功能之一。 成功寫入資料表後,自動壓縮功能會進一步對包含最多小檔案的分割區進行檔案壓縮。 建議在可接受增加數分鐘延遲、且資料表未定期執行 OPTIMIZE 的串流使用案例中,選擇啟用自動壓縮。 如需自動最佳化和自動壓縮的詳細資訊,請參閱此自動最佳化指南

Pipelines

如何確保我知道哪些認證是用來執行管線?

Synapse Pipeline 中的每個活動都是使用連結服務內指定的認證來執行。

Synapse Integration 是否支援 SSIS IRS?

目前不能。

Azure Data Factory 管線和 Azure Synapse 管線如何不同?

差異的一些範例包括是否支援全域參數、對 Data Flow 中 Spark 作業的監視,以及 Integration Runtime 的共用。 如需詳細資訊,請參閱資料整合 - Synapse 與 ADF 比較這份文件。

如何將現有的管線從 Azure Data Factory 移轉至 Azure Synapse workspace?

此時,您必須從原始管線匯出 JSON,並將其匯入 Synapse 工作區,以手動重新建立 Azure Data Factory 管線和相關成品。

如何使用 Apache Spark 作業定義?

請參閱此快速入門指南

我可以從 ADF 管線呼叫筆記本嗎?

此使用案例有兩個選項。 其中一個選項是將管線保留在 ADF 中,您必須包裝在 Web 活動中。 如需此選項的詳細資訊,請檢視此 Web 活動指南。 另一個選項是將管線移轉至 Synapse。 如需第二個選項的詳細資訊,請參閱此移轉程式碼範例

Apache Spark

適用於 Synapse 的 Apache Spark 和 Apache Spark 之間有何差異?

適用於 Azure Synapse 的 Apache Spark 是在 Apache Spark 的基礎上,新增了與其他服務整合的支援 (例如 Microsoft Entra ID、AzureML 等)、額外的程式庫 (mssparkutils、Hummingbird),以及預先調整的效能組態。

目前在 Apache Spark 上執行的任何工作負載,都會在適用於 Azure Synapse 的 Apache Spark 上執行,而不會變更。

有哪些版本的 Spark 可供使用?

自 2023 年 9 月起,Azure Synapse Apache Spark 完全支援 Spark 3.3。 如需核心元件和目前支援版本的完整清單,請參閱 Apache Spark 版本支援

Azure Synapse Spark 中是否有相當於 DButils 的工具?

是,Azure Synapse Apache Spark 提供 mssparkutils 程式庫。 如需公用程式的完整文件,請參閱 Microsoft Spark 公用程式簡介

如何在 Apache Spark 中設定工作階段參數?

若要設定工作階段參數,請使用可用的 %%configure magic 命令。 參數必須重新啟動工作階段才能生效。

如何在無伺服器 Spark 集區中設定叢集層級參數?

若要設定叢集層級參數,您可以提供 Spark 集區的 spark.conf 檔案。 此集區接著會套用並遵循在設定檔中所傳入的參數。

我可以在 Azure Synapse Analytics 中執行多使用者 Spark 叢集嗎?

Azure Synapse 會針對特定使用案例提供專用的引擎。 適用於 Synapse 的 Apache Spark 是設計為作業服務,而不是叢集模型。 有兩種案例可供人們要求多使用者叢集模型。

案例 #1:許多使用者存取叢集以提供 BI 用途的資料服務。

完成此工作最簡單的方式是使用 Spark 處理資料,然後利用 Synapse SQL 的服務功能,讓 Power BI 能夠連線到這些資料集。

案例 #2:在單一叢集上擁有多個開發人員以節省成本。

為滿足此案例,您應為每位開發者配置一個無伺服器 Spark 集區,並將其設定為使用少量 Spark 資源。 由於無伺服器 Spark 集區在未使用時不會產生費用,因此在有多位開發人員的情況下,此模式可有效降低成本。 集區會共用中繼資料 (Spark 數據表),讓它們可以輕鬆地彼此搭配使用。

如何包含、管理和安裝程式庫?

您可以在建立 Spark 集區時,透過 requirements.txt 檔案安裝外部套件;亦可透過 Synapse 工作區或 Azure 入口網站進行安裝。 請參閱管理 Azure Synapse Analytics 中的 Apache Spark 程式庫

Synapse Spark 上有哪些工具可供我使用?

Synapse Spark 上的 MSSparkUtils 提供各種公用程式,可增強您的體驗,並讓與其他工具和服務整合更容易。 使用檔案系統、讀取環境變數、將多個筆記本鏈結在一起,並以最簡化的手動步驟來管理密碼。 如需完整文件,請瀏覽 Microsoft Spark 公用程式

專用 SQL 集區

專用 SQL 集區 (SQL DW) 與 Azure Synapse workspaces 中的專用 SQL 集區有何差異?

專用 SQL 集區 (先前稱為 SQL DW) 是 Azure 平台即服務 (PaaS) 企業資料倉儲平台。 您可以查詢現有的專用 SQL 集區 (先前稱為 SQL DW),也可以在 Azure Synapse workspace 中建立新的專用 SQL 集區。 並非 Azure Synapse workspace 中的所有專用 SQL 集區功能都適用於獨立的專用 SQL 集區 (先前稱為 SQL DW),反之亦然。 如需詳細資訊,請參閱 Azure Synapse 專用 SQL 集區 (先前稱為 SQL DW) 與 Azure Synapse Analytics 工作區中的專用 SQL 集區有何差異?。 若要從現有的專用 SQL 集區 (先前稱為 SQL DW) 啟用 Azure Synapse workspace 功能,請參閱如何為您的專用 SQL 集區 (先前稱為 SQL DW) 啟用工作區 (先前稱為 SQL DW)

專用 SQL 集區和無伺服器集區之間的功能差異為何?

您可以在 Synapse SQL 中找到 T-SQL 功能差異的完整清單。

既然 Azure Synapse 已正式推出 (GA),我該如何將先前獨立的專用 SQL 集區移動至 Azure Synapse?

不需要「移動」或「移轉」。 您可以選擇在現有的集區上啟用新的工作區功能。 如果啟用,不會造成任何中斷性變更,反而能讓您使用新功能,例如 Synapse Studio、Spark 和無伺服器 SQL 集區。 並非 Azure Synapse workspace 中的所有專用 SQL 集區功能都適用於專用 SQL 集區 (先前稱為 SQL DW),反之亦然。 若要從現有的專用 SQL 集區 (先前稱為 SQL DW) 啟用工作區功能,請參閱如何為您的專用 SQL 集區 (先前稱為 SQL DW) 啟用工作區

現在專用 SQL 集區的預設部署為何?

根據預設,所有新的專用SQL集區都會部署到工作區;但如有需要,您仍可以獨立形式建立專用 SQL 集區 (先前稱為 SQL DW)。

網路安全性

如何保護 Azure Synapse workspace 的存取安全?

無論是否使用受控虛擬網路,您都可以從公共網路連線到您的工作區。 如需詳細資訊,請參閱連線設定。 您可以透過啟用公用網路存取功能工作區防火牆,來控制從公用網路的存取。 或者,您可以使用受控私人端點Private Link 連線到工作區。 沒有 Azure Synapse Analytics 受控虛擬網路的 Synapse 工作區無法透過受控私人端點進行連線。