共用方式為


什麼是獎章湖屋建築?

獎章架構描述一系列數據層,代表儲存在 Lakehouse 中的數據品質。 Databricks 建議採用多層式方法來建置企業數據產品的單一事實來源。 此架構可保證不可部分完成性、一致性、隔離性和持久性,因為數據會先經過多層驗證和轉換,再儲存在經過優化以有效率分析的配置中。 青銅(未經驗證)、(經驗證)和黃金(豐富)等詞彙描述每一層的數據品質。

請務必注意,此獎章架構不會取代其他維度模型化技術。 每個層內的架構和數據表可以根據數據更新的頻率和本質,以及數據的下游使用案例,採用各種不同的形式和正規化程度。

組織可以利用 Databricks Lakehouse 來建立和維護可在整個公司存取的已驗證數據集。 採用以策劃數據為產品的組織思維,是成功建置 Data Lakehouse 的關鍵步驟。

擷取原始數據至銅層

銅層包含未驗證的數據。 銅層中擷取的數據通常:

  • 維護數據源的原始狀態。
  • 會以累加方式附加,並隨著時間成長。
  • 可以是串流和批次交易的任何組合。

以有效率的儲存格式保留每個數據集的完整未處理歷程記錄,可讓您重新建立指定數據系統的任何狀態。

其他元數據(例如來源檔名或記錄處理時間數據)可能會新增至擷取的數據,以增強探索性、源數據集狀態的描述,以及下游應用程式中的優化效能。

驗證和重複數據刪除銀層中的數據

回想一下,雖然銅層包含幾乎原始狀態的整個數據歷程記錄,但銀層代表可信任下游分析的已驗證、擴充的數據版本。

雖然 Databricks 堅信,在由銅、銀和金桌驅動的湖屋願景中,只要有效率地實作銀層,就能立即釋放湖屋的許多潛在利益。

對於任何數據管線,銀層可能包含一個以上的數據表。

使用金層進行電源分析

此黃金數據通常經過高度精簡和匯總,其中包含可支援分析、機器學習和生產應用程序的數據。 雖然 Lakehouse 中的所有數據表都應該有重要的用途,但金表代表已轉換成知識的數據,而不只是資訊。

分析師基本上依賴黃金數據表來承擔其核心責任,而與客戶共享的數據很少會儲存在此層級之外。

這些數據表的更新會在定期排程的生產工作負載中完成,有助於控制成本,並允許建立數據更新的服務等級協定(SLA)。

雖然 Lakehouse 沒有您在企業數據倉儲中可能遇到的相同死結問題,但黃金數據表通常會儲存在個別的記憶體容器中,以協助避免數據要求上的雲端限制。

一般而言,因為匯總、聯結和篩選是在將數據寫入金層之前處理,因此用戶應該會在金表的數據上看到低延遲查詢效能。