Data Lakehouse 的卓越營運
卓越營運支柱的架構原則涵蓋所有讓湖屋保持運作的營運程式。 卓越營運解決了有效率地操作湖屋的能力,並討論如何操作、管理及監視湖屋,以提供商業價值。
卓越營運原則
優化建置和發行程式
在整個 Lakehouse 環境中使用軟體工程最佳做法。 使用DevOps和MLOps的持續整合和持續傳遞管線來建置和發行。
自動化部署和工作負載
自動化 Lakehouse 的部署和工作負載有助於標準化這些程式、消除人為錯誤、改善生產力,並提供更高的重複性。 這包括使用「組態即程序代碼」來避免設定漂移,以及「基礎結構即程序代碼」,以自動化布建所有必要的 Lakehouse 和雲端服務。
針對 ML,程式應該驅動自動化:不是程式的每個步驟都可以或應該自動化。 人員 仍會判斷商務問題,有些模型在部署之前一律需要人為監督。 因此,開發程式是主要程式,而且程式中的每個模組都應該視需要自動化。 這可讓自動化和自定義的累加建置。
設定監視、警示和記錄
Lakehouse 中的工作負載通常會整合 Databricks 平臺服務和外部雲端服務,例如數據源或目標。 只有在執行鏈結中的每個服務正常運作時,才會成功執行。 當情況並非如此時,監視、警示和記錄對於偵測和追蹤問題及了解系統行為很重要。
管理容量和配額
針對在雲端中啟動的任何服務,請將限制納入考慮,例如存取速率限制、實例數目、用戶數目和記憶體需求。 在設計解決方案之前,必須瞭解這些限制。
下一步:卓越營運的最佳做法
請參閱 卓越營運的最佳做法。