共用方式為


Microsoft Fabric 中的端對端資料生命週期

組織通常依賴多個分散的服務來匯入、儲存、轉換、分析及視覺化資料。 這種碎片化會造成資料孤島,增加整合負擔,並拖慢洞察的時間。 Microsoft Fabric 透過將資料生命週期的每個階段統一到一個建立在共享基礎上的單一平台,來解決這些挑戰。

此架構的核心是 OneLake,一個單一的組織資料湖,將所有資料以開放式 Delta Parquet 格式儲存。 OneLake 會自動配置給每個 Fabric 租戶。 因為每個 Fabric 工作負載都是從 OneLake 讀寫,資料不會在引擎間移動。 一個透過管線匯入、在筆記本中精煉並以 Power BI 報告視覺化的資料集,會在整個過程中停留在同一個地方。

資料生命週期包含六個階段,Fabric 為每個階段提供專門的工具:

  • 取得資料:即時、按時程、透過持續資料庫複製,或參考現有外部儲存,將數百個來源的資料帶入 OneLake。

  • 儲存資料:將資料保存在針對你工作負載優化的儲存格式中,無論是彈性的大數據分析、結構化 SQL 查詢、即時事件分析、交易處理或受控的商業報告。

  • 準備與轉換:利用低程式碼視覺轉換、優先程式碼筆記本及可重複使用的函式,清潔、重塑並豐富資料,且不需將資料移出 OneLake。

  • 分析與訓練:建立並實務化機器學習模型,執行進階分析,以程式化方式查詢資料,並透過自然語言 AI 代理探索洞見。

  • 追蹤與視覺化:透過互動式報告呈現洞察,監控即時儀表板上的即時數據流,並在條件達成時自動觸發行動。

  • 外部整合:安全連接外部服務,以實現自動化、協作、治理、開發者工具及 CI/CD。

下圖展示了這些階段如何連接,以及每個階段參與的 Fabric 項目。 每個階段都有專門的文章深入介紹。 請使用每個章節的連結,探索該階段可用的功能與工具。

圖示顯示 Microsoft Fabric 中從資料擷取到儲存、準備、分析及視覺化的端到端資料生命週期。

取得資料

不同類型的資料集來自不同資料情境下的各種資料來源,包括資料複製、外部儲存參考、批次資料集及即時資料流。 你透過 Fabric 的整合工具來匯入並轉換這些資料集。 資料會落入 OneLake,這是整個 Fabric 的集中式資料儲存平台。 主要的攝取方法包括:

  • 即時事件擷取與路由的事件串流
  • 用於批次及排程資料傳輸的資料管線,擁有超過 200 個連接器。
  • 鏡像 以實現從營運資料庫持續複製,無需建構 ETL 管線。
  • 從外部儲存(如 Azure Data Lake、Amazon S3 或 Google Cloud Storage)實現無複製資料虛擬化的捷徑

欲了解更多資訊,請參閱 「將資料輸入 Microsoft Fabric」。

儲存資料

資料一旦被導入,所有資料都會以開放式 Delta Parquet 格式進入 OneLake。 OneLake 為整個組織提供單一的資料湖,無需額外配置。 Fabric 提供多種針對不同工作負載優化的儲存項目:

  • Lakehouse 提供靈活的大數據儲存,結合檔案與管理的 Delta 表格,並搭配自動 SQL 端點。
  • Warehouse 用於結構化、關聯式分析,並具備完整 T-SQL 支援、儲存程序及 ACID 交易。
  • Eventhouse 透過 Kusto 查詢語言(KQL)進行串流與遙測資料的即時分析。
  • SQL 資料庫用於交易型工作負載與營運分析。
  • 用於整合商業邏輯、度量值與階層的語意模型,作為報告及人工智慧功能的後盾。

欲了解更多資訊,請參閱 Microsoft Fabric 中的儲存資料

準備和轉換資料

進入 OneLake 後,你可以透過使用以程式碼為先的引擎或低程式碼工具來進一步轉換資料,全部在 Fabric 內進行,且不需在引擎間移動資料:

  • Dataflow Gen2 提供低程式碼的 Power Query 介面,用於資料清理、轉換與豐富。
  • Notebook 提供類似 Jupyter 的環境,適合 Python、T-SQL 及基於 Scala 的資料工程。
  • 使用者資料函數 允許你嵌入可重複使用的自訂 Python 邏輯,這些邏輯可從管線、筆記本和 Activator 規則中調用。

欲了解更多資訊,請參閱 資料準備與轉換

分析資料並訓練模型

利用準備好的資料訓練機器學習模型並進行進階分析。 Fabric 的資料科學工作負載提供建立、訓練及實務化機器學習模型的環境:

  • MLflow 實驗透過 自動記錄超參數、指標與項目來追蹤模型訓練執行。
  • 機器學習模型 會註冊在由 MLflow 驅動的登錄檔中,用於版本管理、元資料追蹤及重現性。
  • 資料代理操作代理 則能利用自然語言與資料互動,並根據發現的條件與模式採取行動。
  • GraphQL API 提供一個靈活的資料存取層,讓開發者能透過單一端點查詢多個 Fabric 資料來源。
  • Power BI 的 Copilot 採用生成式 AI 進行臨時分析、DAX 生成及自然語言資料探索。

欲了解更多資訊,請參閱「 在 Microsoft Fabric 中分析與訓練資料」。

追蹤與視覺化資料

利用準備好並建模的資料來建立報告、儀表板及即時警示:

  • Power BI 報告 提供基於語意模型的互動式資料視覺化,並分布於 Microsoft 365 應用程式,如 Teams、SharePoint、PowerPoint 和 Excel。
  • 轉解任務流程 讓使用者能直接從 Power BI 報告中呼叫使用者資料函式來執行動作。
  • Real-Time Intelligence 儀表板透過 KQL 查詢與視覺化創作,以亞秒延遲監控串流資料。
  • Activator 偵測串流資料中的狀況,並觸發自動動作,如 Teams 警示、電子郵件或 Power Automate 流程。
  • Fabric IQ 將企業資料映射到共享的商業本體,並讓 AI 代理能根據完整的商業脈絡推理你的資料。

欲了解更多資訊,請參閱 「追蹤與視覺化資料」。

外部整合

Fabric 與外部系統整合,用於資料擷取與洞察傳遞:

  • Power AutomateData Activator 能根據資料條件實現即時工作流程自動化。
  • Microsoft 365 整合可呈現 Teams、SharePoint、PowerPoint 與 Excel 的洞察。
  • REST API用戶端函式庫 提供對 Fabric 資源的程式化存取。
  • Microsoft Entra ID 負責認證、條件存取及服務主體支援。
  • Git 與 Azure DevOps 和 GitHub 整合,能支援 Fabric 項目的版本控制和 CI/CD。
  • Microsoft Purview 提供跨 Fabric 資料資產的統一資料治理、目錄管理與合規。

欲了解更多資訊,請參閱 外部整合與平台連接

自然語言與人工智慧支援

自然語言處理支援通過 Power BI Copilot、資料代理和運營代理提供,這些工具可以在 OneLake 上進行企業資料推理,並根據使用者可存取的資料項目產生答案。 你可以將資料代理整合到 Microsoft 365 Copilot、Microsoft Foundry 和 Copilot Studio,讓使用者能在現有工作流程中,跨越不同應用程式,從 OneLake 獲得洞見。