Azure Synapse 資料總管是什麼? (預覽)

Azure Synapse 資料總管提供客戶互動式查詢體驗,揭開記錄和遙測資料的深入解析。 為補充現有的 SQL 和 Apache Spark 分析執行階段引擎,資料總管分析執行階段使用強大的索引技術,自動編製索引任意文字與遙測資料常見的半結構化資料,將高效記錄分析最佳化。

顯示 Azure Synapse 架構的圖表。

若要深入瞭解,請參閱下列影片:

Azure Synapse 資料總管為什麼與眾不同?

  • 簡單擷取 - 資料總管針對無程式碼/低程式碼、高輸送量資料擷取,和即時資料來源的快取資料提供內建整合。 資料可以從來源內嵌,例如Azure 事件中樞、Kafka、Azure Data Lake、開放原始碼代理程式,例如 Fluentd/Fluent Bit,以及各種不同的雲端和內部部署資料來源。

  • 沒有複雜的資料模型化- 使用Data Explorer時,不需要建置複雜的資料模型,也不需要複雜的腳本轉換資料,才能取用資料。

  • 沒有索引維護 - 不需要維護工作來優化查詢效能的資料,也不需要索引維護。 使用資料總管,即可隨時取用所有未經處理資料,讓您透過串流和持續性資料執行高效能和高並行的查詢。 您可以使用這些查詢來建置近乎即時的儀表板和警示,並將作業分析資料與資料分析平臺的其餘部分連線。

  • 資料分析大眾化 - 資料總管透過直覺式 Kusto 查詢語言 (KQL) 使用簡單的 Excel 提供 SQL 的語法和強大功能,將自助的巨量資料分析大眾化。 KQL 利用資料總管頂級的文字索引技術,提供高效任意文字和規則運算式搜尋,及完整剖析功能,提供查詢追蹤/文字資料與包含陣列和巢狀結構的 JSON 半結構化資料,將未經處理的遙測資料和時間序列最佳化。 KQL 使用內建引擎的 Python 執行模型評分支援,提供適用於建立、管理、分析多個時間序列的進階時間序列支援。

  • 以 PB 規模實證的技術- Data Explorer是一種分散式系統,具有可獨立調整的計算資源和儲存體,可針對 GB 或數 PB 的資料啟用分析。

  • 整合式 - Azure Synapse Analytics 提供資料總管、Apache Spark 與 SQL 引擎間的資料互通性,讓資料工程師、資料科學家和資料分析師輕鬆且安全地透過資料湖存取和協作同個資料。

使用 Azure Synapse 資料總管的時機?

使用資料總管作為資料平台,建立近即時的記錄分析和 IoT 分析解決方案,即可:

  • 跨內部部署、雲端和協力廠商資料來源,合併記錄和事件資料,並使其相互關聯。

  • 加速 AI Ops 旅程 (模式辨識、異常偵測、預測等)。

  • 取代基礎結構的記錄搜尋解決方案,節省成本並提高產能。

  • 組建 IoT 資料的 IoT 分析解決方案。

  • 組建分析 SaaS 解決方案,提供您的內外部客戶服務。

資料總管集區結構

Data Explorer集區會藉由分隔計算和儲存體資源來實作向外延展架構。 這可讓您獨立調整每個資源,例如,在同一個資料上執行多個唯讀計算。 Data Explorer集區包含一組執行引擎的計算資源,負責自動編制索引、壓縮、快取及提供分散式查詢。 它們也有第二組計算資源,執行負責背景系統作業的資料管理服務,以及管理和排入佇列的資料擷取。 所有資料都使用壓縮的單欄格式保存在受控 blob 儲存體帳戶。

資料總管集區支援豐富的生態系統,使用連接器、SDK、REST API 和其他受控功能內嵌資料。 它提供各種方式來取用特定查詢、報表、儀表板、警示、REST API 和 SDK 的資料。

資料總管集區結構

有許多獨特的功能可讓資料探索成為 Azure 上記錄和時間序列分析的最佳分析引擎。

下列各節會著重於討論關鍵差異。

自由文字和半結構化資料索引可啟用近乎即時的高效能和高並行查詢

Data Explorer索引 (JSON) 和非結構化資料 (自由文字) ,讓執行查詢在這種類型的資料上執行效能良好。 根據預設,每個欄位都會在資料擷取期間編制索引,並使用低階編碼原則來微調或停用特定欄位的索引。 索引的範圍是單一資料分區。

索引的實作取決於下列欄位的類型:

欄位類型 編制索引的實作
String 引擎會組建字串資料行值的反向字詞索引。 系統分析每個字串值後,會分割為標準化字詞,並記錄每個字詞的邏輯位置排序清單 (包含記錄序數)。 產生的字詞排序清單和相關位置會儲存為不可變的 B 型樹狀結構。
數字
DateTime
TimeSpan
引擎會組建簡單的範圍轉接索引。 索引會記錄各區塊、區塊群組和資料分區中整個資料行的最小/最大值。
動態 內嵌流程會列舉動態值所有的「不可部分完成」元素,例如屬性名稱、值和陣列元素,並轉接至索引建立器。 動態欄位有與字串欄位相同的反向字詞索引。

這些有效率的索引功能可讓「資料探索」以近乎即時的方式提供資料,以進行高效能和高並行查詢。 為了進一步提升效能,系統會自動將資料分區最佳化。

Kusto 查詢語言

KQL 有龐大、不斷成長的社群,並快速採用 Azure 監視器 Log Analytics 和 Application Insights、Microsoft Sentinel、Azure 資料總管等 Microsoft 供應項目。 該程式設計語言使用易讀的語法精心設計,並提供簡單的單行資料順暢轉換至複雜的資料處理查詢。 這可讓Data Explorer提供豐富的 Intellisense 支援,以及一組豐富的語言建構和內建功能,用於匯總、時間序列,以及 SQL 中無法使用的使用者分析,以快速探索遙測資料。

後續步驟