什麼是獎章湖屋建築?

獎章架構描述一系列資料層,代表儲存在 Lakehouse 中的資料品質。 Databricks 建議採用多層式方法來建置企業資料產品的單一事實來源。 此架構可保證不可部分完成性、一致性、隔離性和持久性,因為資料會先經過多層驗證和轉換,再儲存在經過優化以有效率分析的配置中。 青銅 (未經驗證)、 (經驗證)和 黃金 (豐富)等詞彙 描述每一層的資料品質。

請務必注意,此獎章架構不會取代其他維度模型化技術。 每個層內的架構和資料表可以根據資料更新的頻率和本質,以及資料的下游使用案例,採用各種不同的形式和正規化程度。

組織可以利用 Databricks Lakehouse 來建立和維護可在整個公司存取的已驗證資料集。 採用以策劃資料為產品的組織思維,是成功建置 Data Lakehouse 的關鍵步驟。

擷取原始資料至銅層

銅層包含未驗證的資料。 銅層中擷取的資料通常:

  • 維護資料來源的原始狀態。
  • 會以累加方式附加,並隨著時間成長。
  • 可以是串流和批次交易的任何組合。

以有效率的儲存格式保留每個資料集的完整未處理歷程記錄,可讓您重新建立指定資料系統的任何狀態。

其他中繼資料(例如來原始檔案名或記錄處理時間資料)可能會新增至擷取的資料,以增強探索性、源資料集狀態的描述,以及下游應用程式中的優化效能。

驗證和重復資料刪除銀層中的資料

回想一下,雖然銅層包含幾乎原始狀態的整個資料歷程記錄,但銀層代表可信任下游分析的已驗證、擴充的資料版本。

雖然 Databricks 堅信,在由銅、銀和金桌驅動的湖屋願景中,只要有效率地實作銀層,就能立即釋放湖屋的許多潛在利益。

對於任何資料管線,銀層可能包含一個以上的資料表。

使用金層進行電源分析

此黃金資料通常經過高度精簡和匯總,其中包含可支援分析、機器學習和生產應用程式的資料。 雖然 Lakehouse 中的所有資料表都應該有重要的用途,但金表代表已轉換成知識的資料,而不只是資訊。

分析師基本上依賴黃金資料表來承擔其核心責任,而與客戶共用的資料很少會儲存在此層級之外。

這些資料表的更新會作為定期排程生產工作負載的一部分完成,這有助於控制成本,並允許建立資料新鮮度的服務等級協定(SLA)。

雖然 Lakehouse 沒有您在企業資料倉儲中可能遇到的相同死結問題,但黃金資料表通常會儲存在個別的儲存體容器中,以協助避免資料要求上的雲端限制。

一般而言,因為匯總、聯結和篩選是在將資料寫入金層之前處理,因此使用者應該會在金表的資料上看到低延遲查詢效能。