分享方式:


Data Lakehouse 的效能效率

本文涵蓋效能效率要素的架構原則,指的是系統適應負載變更的能力。

Databricks 的效能效率 Lakehouse 架構圖表。

效能效率的原則

  1. 使用無伺服器架構

    無伺服器架構不需要客戶在雲端中操作和維護運算基礎結構。 這可消除管理雲端基礎結構的作業額外負荷,並降低交易成本,因為受控服務會在雲端規模上運作。 它們也會提供立即的可用性、現用的安全性,而且需要最少的設定或管理。

  2. 設計效能的工作負載

    對於重複的工作負載,例如數據工程管線,效能不應該是事後考慮。 資料必須是:

    • 有效率地從物件記憶體讀取。
    • 有效率地轉換。
    • 有效率地發佈供取用。

    此外,大部分管線或取用模式都會使用系統鏈結。 若要達到最佳效能,必須考慮並選取整個鏈結以獲得最佳效能。

  3. 在開發範圍內執行效能測試

    每個開發工作負載都必須經過持續效能測試。 測試可確保程式代碼基底的任何變更都不會對工作負載的效能造成負面影響。 建立執行測試的一般排程。 在排程事件中執行測試,或作為持續整合建置管線的一部分執行。

    建立效能基準,並判斷工作負載和支援基礎結構的目前效率。 根據基準測量效能可以提供改進策略,並判斷應用程式是否符合商務目標。

    找出可能影響效能的瓶頸。 這些瓶頸可能是因為程式代碼錯誤或服務設定錯誤所造成。 一般而言,當負載增加時,瓶頸會變得更糟。

  4. 監視效能

    請確定資源和服務仍可存取,且效能符合使用者的期望或工作負載需求。 監視可協助您找出瓶頸或資源不足、優化設定,以及偵測管線/工作負載錯誤。

下一步:效能效率的最佳做法

請參閱 效能效率的最佳做法。