探索分析資料處理
分析資料處理通常會使用唯讀 (或「主」讀) 系統,來儲存大量歷程記錄資料或商務計量。 分析可以根據指定時間點的資料快照集,或一系列的快照集。
分析處理系統的特定詳細資料可能會因解決方案而異,但企業級分析的常見架構如下所示:
作業資料會被擷取、轉換並載入(ETL)到資料湖中進行分析——或先擷取載入,後再進行轉換,這種模式稱為 ELT ,現代湖屋中很常見。
資料會載入資料表結構中——通常是在資料 湖中 ,透過對資料湖中的檔案進行表格抽象,或是擁有完全關聯式 SQL 引擎的資料 倉儲 。
資料倉儲中的資料可以被彙整並載入線上分析處理(OLAP)模型——現今更常稱為 語意模型 (歷史上稱為 立方體)。 從事實資料表彙總而得的數值(量值),是根據維度資料表中維度的交叉組合來計算的。 例如,銷售營收可能會依日期、客戶和產品來總計。 Power BI 語意模型是你最常遇到的例子。
您可以查詢資料湖、資料倉儲和分析模型中的資料,以產生報表、視覺效果及儀表板。
「資料湖」在大規模資料分析處理案例中很常見,這些案例必須收集和分析大量檔案型資料。
資料倉儲 是一種成熟的方式,將資料儲存在關聯式架構中,優化用於讀取操作——主要是用於查詢以支援報告與資料視覺化。
資料湖屋 是較新的創新,結合了資料湖的靈活且可擴展的儲存,以及資料倉儲的關聯式查詢語意。 資料表結構描述可能需要對 OLTP 資料來源中的資料進行一些反標準化 (引進一些重複項目來讓查詢執行得更快)。
OLAP 模型(或稱為 語意模型)是一種彙總式資料儲存,並針對分析工作負載進行最佳化。 資料彙總可跨不同維度的各個層級進行,讓您能夠向上/向下鑽取,查看不同階層層級的彙總結果;例如,可依區域、城市或個別地址查看總銷售額。 由於資料是預先彙總的,回傳摘要的查詢可以快速執行。
不同類型的使用者可能會在整體架構的不同階段執行資料分析工作。 例如:
- 資料科學家可以直接在資料湖中,使用資料檔案來探索和模型化資料。
- 資料分析師可能會直接在資料倉儲中查詢資料表,以產生複雜的報表和視覺效果。
- 商業用戶可能會以報告或儀表板的形式,使用分析模型中的預先彙總資料。
現代分析平台
Azure 提供多項管理式服務,涵蓋完整的分析流程——從原始資料匯入到互動式報告。 兩個「一體化」平台將大部分這些功能整合在同一工作空間中。 Microsoft Fabric 和 Azure Databricks 就是這兩個平台;第三個服務 Microsoft Purview 則專注於涵蓋所有資料來源的資料治理。 你不需要還熟悉這些服務——以下說明能讓你大致了解每項服務的運作內容。
Microsoft Fabric 是一個統一的軟體即服務(SaaS)分析平台,將儲存、資料工程、資料倉儲與報告功能整合於單一工作空間中。 Azure Databricks 是一款為大規模資料工程與資料科學打造的雲端分析平台,標準儲存格式採用 Delta Lake—Parquet 以及可支援版本控制與 ACID 交易的交易日誌。 Microsoft Purview 提供統一的資料安全、治理與合規,幫助您發現、分類、保護及管理所有資料來源的資料。
利用 medallion 架構組織資料
湖屋中資料組織的常見模式是 medallion 架構,該架構包含三層:
- 青銅:從來源系統 as-is 擷取的原始資料,未進行轉換,保留原始紀錄以便重新處理。
- 銀色:經過清理與合規的資料,重複資料被移除,資料類型標準化。
- Gold:彙整後、可直接用於業務的資料,針對特定報表與分析使用案例建模。
團隊使用這種模式,因為它在每一層建立了明確的品質邊界,且如果需求改變,你隨時可以重新處理原始 Bronze 紀錄的資料。
Fabric 和 Databricks 都包含 Copilot 體驗,讓你能利用自然語言探索資料。