Azure Synapse Analytics 術語

本文件將引導您了解 Azure Synapse Analytics 的基本概念。

Synapse 工作區

Synapse 工作區是在 Azure 中進行雲端式企業分析的安全共同作業界限。 工作區會部署在特定區域中,並且具有相關聯的 ADLS Gen2 帳戶和檔案系統 (用於儲存暫存資料)。 工作區位在資源群組底下。

工作區可讓您使用 SQL 和 Apache Spark 執行分析。 可供 SQL 和 Spark 分析使用的資源會組織成 SQL 和 Spark 集區

連結的服務

工作區可以包含任意數目的連結服務,基本上是連接字串,用於定義工作區連線到外部資源所需的連線資訊。

Synapse SQL

Synapse SQL 可在 Synapse 工作區中執行 T-SQL 型分析。 Synapse SQL 有兩種耗用模型:專用和無伺服器。 若為專用模型,請使用專用的 SQL 集區。 一個工作區可以具有任意數目的集區。 若要使用無伺服器模型,請使用無伺服器 SQL 集區。 每個工作區都有其中一個集區。

在 Synapse Studio 內,您可以執行 SQL 指令碼來使用 SQL 集區。

注意

Azure Synapse 中的專用 SQL 集區不同於專用 SQL 集區 (先前稱為 SQL DW)。 並非 Azure Synapse Analytics 工作區中專用 SQL 集區的所有功能都適用於專用的 SQL 集區 (先前稱為 SQL DW),反之亦然。 若要從現有的專用 SQL 集區 (先前稱為 SQL DW) 啟用工作區功能,請參閱如何針對專用 SQL 集區啟用 Synapse 工作區 (先前稱為 SQL DW)

適用於 Synapse 的 Apache Spark

若要使用 Spark 分析,請在 Synapse 工作區中建立及使用無伺服器 Apache Spark 集區。 當您開始使用 Spark 集區時,工作區會建立一個 spark 工作階段,用以處理與該工作階段相關聯的資源。

在 Synapse 中有兩種方式可使用 Spark:

  • Spark Notebooks,用來執行資料科學和工程,使用 Scala、PySpark、C# 和 SparkSQL
  • Spark 作業定義,可讓您使用 jar 檔案執行批次 Spark 作業。

SynapseML

SynapseML (之前稱為 MMLSpark) 是開放原始碼程式庫,並簡化可大規模調整的機器學習 (ML) 管道。 SynapseML 是工具的生態系統,可以數個新方向展開 Apache Spark 架構。 SynapseML 整合數個現有的機器學習架構和新 Microsoft 演算法為單一、可調整的 API,此 API 可跨 Python、R、Scala、.NET 和 JAVA 使用。 若要深入了解,請參閱 SynapseML 的主要功能

Pipelines

管線是 Azure Synapse 提供資料整合的方式,可讓您在服務之間移動資料並協調活動。

  • 管線是一起執行某個工作的活動邏輯群組。
  • 活動會定義要在管線中對資料執行的動作,例如複製資料、執行 Notebook 或 SQL 指令碼。
  • 資料流程是一種特定類型的活動,可針對使用 Synapse Spark 的資料轉換提供無程式碼的體驗。
  • 觸發程序 - 執行管線。 可以手動執行或自動執行 (排程、輪轉視窗或以事件為基礎)
  • 整合資料集 - 具名的資料檢視,只會指向或參考要在活動中作為輸入和輸出的資料。 其屬於連結服務。

資料總管 (預覽)

Azure Synapse 資料總管為客戶提供互動式查詢體驗,以發現記錄和遙測資料中的見解。

  • 資料總管集區是專用叢集,其中包含兩個以上的計算節點,隨附本機 SSD 儲存體 (熱快取) 以最佳化查詢效能,以及多個 Blob 儲存體 (冷快取) 以持續保存。
  • 資料總管資料庫裝載於資料總管集區,而且是由資料表和其他資料庫物件集合組成的邏輯實體。 每個集區可以有多個資料庫。
  • 資料表是資料庫物件,其中包含使用傳統關聯式資料模型組織的資料。 資料會儲存在資料列中,這些資料列遵守資料總管定義完善的資料行結構描述,而這些結構描述定義排序的資料行清單,每個資料行都有名稱和純量資料類型。 純量資料類型可以是結構化 (intrealdatetimetimespan)、半結構化 (dynamic) 或自由文字 (string)。 dynamic 類型類似於 JSON,因為其可以保留單一純量值、陣列或這類值的字典。
  • 外部資料表是參考資料總管資料庫外儲存體或 SQL 資料來源的資料表。 與資料表類似,外部資料表具有定義完善的結構描述 (資料行名稱和資料類型配對的排序清單)。 不同於將資料內嵌至資料總管集區的資料總管資料表,外部資料表會處理集區外儲存和管理的資料。 外部資料表不會保存任何資料,而且是用來查詢資料或將資料匯出至外部資料存放區。

後續步驟