簡介
您和您的資料工程師團隊希望專注於真正重要的事情:塑造資料,使其為業務做好準備。 這意味著要轉換和聚合它,為 BI、數據科學和機器學習做好準備。 但在您到達那裡之前,您就無法弄清楚資料的實際位置——分散在資料湖和資料倉儲中。 然後是支援新用例的串流管道、啟用生成式 AI 專案和管理編排的需求,同時兼顧版本控制、CI/CD 和部署基礎設施。 再加上資料品質檢查、治理和發現,挑戰只會越來越大。 除此之外,還有操作上的苦差事——手動編碼回填、管理依賴項、分區、檢查點和重試——而您真正想要的只是提供可靠的數據。
這就是為什麼構建和運行數據管道如此困難的原因。 開發緩慢且勞動密集,管道脆弱且容易出錯,延誤會波及業務。 營運複雜性會導致停機、資源浪費和工程工作。 由於批處理和串流通常是孤立的,因此適應延遲、成本和 SLA 方面的新要求感覺僵化且昂貴。
借助 Lakeflow 聲明式管道,您和您的團隊可以將這些令人頭痛的問題拋在腦後。 您可以專注於編寫和管理轉換邏輯,而不是與協調流程和基礎設施搏鬥。 它是 Databricks Lakehouse 平臺內的架構,可用來以 宣告方式 建置和執行資料管線。 結果:乾淨、可靠的資料管道,以更少的努力和更大的信心交付。
Lakeflow 宣告式管線具有多項功能,可簡化資料工程任務並增強資料基礎結構可靠性。 您可以直接在管線程式碼中定義 資料品質 規則和 期望 。 該系統即時監控資料質量,提供對資料完整性的可見性和控制。 透過 變更資料擷取 (CDC),除了處理亂序事件之外,它還會自動處理插入、更新和刪除。