更好的一起:湖屋和倉庫

適用於: Microsoft Fabric 中的 SQL 分析端點和倉儲

本文說明具有 Lakehouse SQL 分析端點 的數據倉儲工作負載,以及用於數據倉儲中 Lakehouse 的案例。

什麼是 Lakehouse SQL 分析端點?

在 Fabric 中,當您 建立 Lakehouse 時, 系統會自動建立倉儲

SQL 分析端點可讓您使用 T-SQL 語言和 TDS 通訊協定來查詢 Lakehouse 中的數據。 每個 Lakehouse 都有一個 SQL 分析端點,而且每個工作區可以有多個 Lakehouse。 工作區中的 SQL 分析端點數目符合 Lakehouse 項目的數目。

  • 每個 Lakehouse 都會自動產生 SQL 分析端點,並將來自 Lakehouse 的 Delta 數據表公開為可使用 T-SQL 語言查詢的 SQL 數據表。
  • 來自 Lakehouse 的每個差異數據表都會以一個數據表表示。 數據應為差異格式。
  • 系統會 為每個 SQL 分析端點建立預設的 Power BI 語意模型 ,並遵循 Lakehouse 物件的命名慣例。

不需要在 Microsoft Fabric 中建立 SQL 分析端點。 Microsoft Fabric 使用者無法在工作區中建立 SQL 分析端點。 會自動為每個 Lakehouse 建立 SQL 分析端點。 若要取得 SQL 分析端點, 請為 Lakehouse 自動建立 Lakehouse 和 SQL 分析端點。

注意

在幕後,SQL 分析端點會使用與 倉儲 相同的引擎來提供高效能、低延遲的 SQL 查詢。

自動元數據探索

順暢的程式會讀取差異記錄,並從檔案資料夾讀取差異記錄,並確保數據表的SQL元數據,例如統計數據一律為最新狀態。 不需要用戶動作,也不需要匯入、複製數據或設定基礎結構。 如需詳細資訊,請參閱 SQL 分析端點中的自動產生架構。

Lakehouse 為數據倉儲啟用的案例

在 Fabric 中,我們提供一個倉儲。

Lakehouse 以其 SQL 分析端點,由倉儲提供,可簡化批次、串流或 Lambda 架構模式的傳統判定樹。 Lakehouse 與倉儲一起,可啟用許多加法分析案例。 本節將探討如何使用 Lakehouse 搭配倉儲,以獲得最佳品種分析策略。

使用 Fabric Lakehouse 的黃金層分析

湖數據組織的已知策略之一 是獎章架構 ,檔案組織在原始(青銅)、合併(銀)和精製(金)層中。 即使檔案 Delta Lake 儲存在 Microsoft Fabric OneLake 外部,SQL 分析端點也可以用來分析獎章架構金層中的數據。

您可以使用 OneLake 快捷方式 來參考 Synapse Spark 或 Azure Databricks 引擎所管理之外部 Azure Data Lake 儲存器帳戶中的金資料夾。

倉儲也可以新增為特定主題主題的主題領域或領域導向解決方案,這些主題可以有定製分析需求。

如果您選擇將數據保留在 Fabric 中,它一 律會透過 API、差異格式,以及 T-SQL 來開啟 和存取。

從 Lakehouse 查詢服務,以及 OneLake 數據中樞的其他專案,透過您的差異數據表進行查詢

在某些情況下,分析師、數據科學家或數據工程師可能需要查詢 Data Lake 中的數據。 在 Fabric 中,此端對端體驗完全是 SaaSified。

OneLake 是整個組織的單一、統一、邏輯數據湖。 OneLake 是適用於數據的 OneDrive。 OneLake 可以包含多個工作區,例如,沿著您的組織部門。 Fabric 中的每個專案都可透過 OneLake 存取數據。

Microsoft Fabric Lakehouse 中的數據會以下列資料夾結構實際儲存在 OneLake 中:

  • 資料夾 /Files 包含未經處理且未整合的檔案,這些檔案應該由數據工程師在分析之前進行處理。 這些檔案的格式可能各種,例如 CSV、Parquet、不同類型的影像等等。
  • 資料夾 /Tables 包含精製和合併的數據,可供商務分析使用。 合併的數據格式為 Delta Lake。

SQL 分析端點可以讀取 OneLake 內資料夾中的數據 /tables 。 分析就像查詢 Lakehouse 的 SQL 分析端點一樣簡單。 與倉儲一起,您也會取得跨資料庫查詢,以及能夠順暢地從只讀查詢切換至使用 Synapse 數據倉儲在 OneLake 數據之上建置額外的商業規則。

使用 Spark 進行 資料工程師,並使用 SQL 服務

數據驅動企業必須讓後端和分析系統與客戶面向應用程式進行近乎即時的同步處理。 交易的影響必須透過端對端程式、相關應用程式和在線事務處理 (OLTP) 系統正確反映。

在 Fabric 中,您可以使用 Spark 串流或 資料工程師 來策劃您的數據。 您可以使用 Lakehouse SQL 分析端點來驗證數據品質,以及現有的 T-SQL 進程。 這可以在獎章架構或 Lakehouse 的多層內完成,提供銅牌、銀牌、金牌或預備、策劃和精簡的數據。 您可以自定義透過Spark建立的資料夾和資料表,以符合您的資料工程和商務需求。 準備好時,倉儲可以處理所有下游商業智慧應用程式和其他分析使用案例,而不需複製數據、使用檢視或使用 (CTAS)、預存程式和其他 DML / DDL 命令來精簡數據 CREATE TABLE AS SELECT

與您的 Open Lakehouse 黃金層整合

SQL 分析端點的範圍不僅限於 Fabric Lakehouse 中的數據分析。 SQL 分析端點可讓您使用 Synapse Spark、Azure Databricks 或任何其他以湖為中心的數據工程引擎來分析任何 Lakehouse 中的湖數據。 數據可以儲存在 Azure Data Lake 儲存體 或 Amazon S3 中。

這種緊密、雙向的與 Fabric Lakehouse 整合一律可透過任何具有開放式 API、Delta 格式,當然 T-SQL 的引擎來存取。

具有快捷方式的外部 Data Lake 數據虛擬化

您可以使用 OneLake 快捷方式 來參考由 Synapse Spark 或 Azure Databricks 引擎所管理之外部 Azure Data Lake 記憶體帳戶中的金資料夾,以及儲存在 Amazon S3 中的任何差異數據表。

任何使用快捷方式參考的資料夾都可以從 SQL 分析端點進行分析,並針對參考的數據建立 SQL 資料表。 SQL 數據表可用來公開外部管理之 Data Lake 中的數據,並對其啟用分析。

此快捷方式可作為虛擬倉儲,可從倉儲運用以取得其他下游分析需求,或直接查詢。

使用下列步驟來分析外部 Data Lake 記憶體帳戶中的數據:

  1. 建立參考 Azure Data Lake StorageAmazon S3 帳戶中資料夾的快捷方式。 輸入連線詳細數據和認證之後,Lakehouse 中會顯示快捷方式。
  2. 切換至 Lakehouse 的 SQL 分析端點,並尋找名稱符合快捷方式名稱的 SQL 資料表。 此 SQL 資料表會參考 ADLS/S3 資料夾中的資料夾。
  3. 查詢參考 ADLS/S3 中數據的 SQL 資料表。 數據表可以做為 SQL 分析端點中的任何其他數據表。 您可以聯結參考不同記憶體帳戶中數據的數據表。

注意

如果 SQL 資料表未立即顯示在 SQL 分析端點中,您可能需要等候幾分鐘。 參考外部記憶體帳戶數據的 SQL 資料表會延遲建立。

分析數據湖中的封存或歷程記錄數據

數據分割是 Data Lake 中已知的數據存取優化技術。 數據分割數據集會儲存在階層式資料夾結構中,格式 /year=<year>/month=<month>/day=<day>為 、,其中 yearmonthday 是資料分割數據行。 這可讓您以格式以邏輯方式儲存歷程記錄數據,以允許計算引擎視需要使用高效能篩選來讀取數據,而不是讀取整個目錄和包含的所有資料夾和檔案。

如果查詢篩選了比較述詞數據行與值的述詞,數據分割數據可加快存取速度。

SQL 分析端點可以輕鬆地讀取這種類型的數據,而不需要任何設定。 例如,您可以使用任何應用程式將數據封存到 Data Lake,包括 SQL Server 2022 或 Azure SQL 受控執行個體。 將數據分割並放在 Lake 中以供外部數據表封存之後,SQL 分析端點就可以將分割的 Delta Lake 數據表讀取為 SQL 數據表,並允許您的組織加以分析。 這樣可降低總擁有成本、減少數據重複,以及點亮巨量數據、AI、其他分析案例。

具有快捷方式的網狀架構數據數據數據虛擬化

在 Fabric 中,工作區可讓您根據複雜的商務、地理或法規需求來隔離數據。

SQL 分析端點可讓您讓數據保持原位,並且仍然透過無縫虛擬化在其他 Microsoft Fabric 工作區中分析倉儲或 Lakehouse 中的數據。 每個 Microsoft Fabric Lakehouse 都會將數據儲存在 OneLake 中。

快捷方式可讓您參考任何 OneLake 位置中的資料夾。

每個 Microsoft Fabric 倉儲都會將數據表數據儲存在 OneLake 中。 如果數據表是僅附加的,數據表數據會在 OneLake 中公開為 Delta Lake 數據。 快捷方式可讓您參考任何 OneLake 中公開倉儲數據表的資料夾。

跨工作區共享和查詢

雖然工作區可讓您根據複雜的商務、地理或法規需求來隔離數據,但有時候您需要針對特定分析需求加速跨這幾行共用。

Lakehouse SQL 分析端點可讓您在部門與用戶之間輕鬆共享數據,讓使用者可以攜帶自己的容量和倉儲。 工作區會組織部門、業務單位或分析網域。 使用快捷方式,使用者可以找到任何 Warehouse 或 Lakehouse 的數據。 用戶可以從相同的共享數據立即執行自己的自定義分析。 除了協助部門退款和使用量配置之外,這也是數據的零複製版本。

SQL 分析端點可讓您查詢任何資料表並輕鬆共用。 新增工作區角色和安全性角色的控制,可進一步分層以符合其他商務需求。

使用下列步驟來啟用跨工作區資料分析:

  1. 建立 OneLake 快捷方式,參考您可以存取之工作區中的數據表或資料夾。
  2. 選擇包含您要分析之數據表或 Delta Lake 資料夾的 Lakehouse 或 Warehouse。 選取數據表/資料夾之後,Lakehouse 中會顯示快捷方式。
  3. 切換至 Lakehouse 的 SQL 分析端點,並尋找名稱符合快捷方式名稱的 SQL 資料表。 此 SQL 資料表會參考另一個工作區中的資料夾。
  4. 查詢參考另一個工作區中數據的 SQL 資料表。 數據表可以做為 SQL 分析端點中的任何其他數據表。 您可以聯結參考不同工作區中數據的數據表。

注意

如果 SQL 資料表未立即顯示在 SQL 分析端點中,您可能需要等候幾分鐘。 參考另一個工作區中數據的 SQL 數據表會延遲建立。

分析數據分割數據

數據分割是 Data Lake 中已知的數據存取優化技術。 數據分割數據集會儲存在階層式資料夾結構中,格式 /year=<year>/month=<month>/day=<day>為 、,其中 yearmonthday 是資料分割數據行。 如果查詢使用篩選數據的述詞,藉由比較述詞數據行與值,數據分割數據集可加快數據存取速度。

SQL 分析端點可以將分割的 Delta Lake 數據集表示為 SQL 數據表,並讓您進行分析。