Lakehouse 平台的範圍
新式資料和 AI 平台架構
若要討論 Databricks Data Intelligence Platform 的範圍,先定義新式資料和 AI 平台的基本架構會很有用:
Lakehouse 範圍概觀
Databricks Data Intelligence Platform 涵蓋完整的新式資料平台架構。 其建置在 Lakehouse 架構之上,由資料智慧引擎提供支援,該引擎可理解資料的獨特品質。 它是 ETL、ML/AI 和 DWH/BI 工作負載的開放統一基礎,並具有 Unity Catalog 作為中央資料和 AI 治理解決方案。
平台架構的角色
此架構涵蓋在架構中處理應用程式的主要資料小組成員 (角色):
- 資料工程師為資料科學家和商務分析師提供準確且可重現的資料,以便及時做出決策和提供即時見解。 他們實作高度統一且可靠的 ETL 程序,以增加使用者對資料的信心和信任。 他們確保資料與商務的各個支柱很好地整合,並且通常遵循軟體工程最佳做法。
- 資料科學家結合分析專長和商務見解,將資料轉化為策略見解和預測模型。 他們善於將商務挑戰轉換為資料驅動型解決方案,即透過追溯分析見解或前瞻性預測建模。 利用資料建模和機器學習技術,他們設計、開發和部署模型,透過資料揭示模式、趨勢和預測。 他們充當溝通的橋樑,將複雜的資料敘述轉換為可理解的案例,確保商務專案關係人不僅理解,而且還可以根據資料驅動型建議採取行動,進而推動以資料為中心的方法來解決組織內部的問題。
- ML 工程師 (機器學習工程師) 透過建置、部署和維護機器學習模型,領導資料科學在產品和解決方案中的實際應用。 他們主要關注模型開發和部署的工程方面。 ML 工程師確保機器學習系統在即時環境中的穩健性、可靠性和可擴縮性,應對與資料品質、基礎結構和效能相關的挑戰。 透過將 AI 和 ML 模型整合到運營商務程序和面向使用者的產品,他們促進了利用資料科學來解決商務挑戰,確保模型不僅僅停留在研究階段,而是能帶來切實的商業價值。
- 商務分析師為利害關係人和商務小組提供可採取動作的資料。 他們通常使用標準 BI 工具為領導階層解譯資料並建立報表或其他文件。 對於非技術商務和運營部門的同事而言,他們通常是快速分析問題的首選連絡人。
- 商務合作夥伴是日益網路化的商務世界中的重要利害關係人。 他們定義為與企業建立了正式關係以實現共同目標的公司或個人,可以包括廠商、供應商、經銷商和其他協力廠商合作夥伴。 資料共用是商務合作關係的一個重要方面,因為它透過資料傳輸和交換資料來增強協作和資料驅動型決策。
平台架構的網域
平台包含多個網域:
儲存體:在雲端中,資料主要儲存在雲端提供者的可擴縮、高效且可復原的物件儲存體中。
控管:有關資料控管的功能,例如存取控制、稽核、中繼資料管理、譜系追蹤、以及所有資料和 AI 資產的監視。
AI 引擎:AI 引擎為整個平台提供生成式 AI 功能。
內嵌和轉換:ETL 工作負載的功能。
進階分析、ML 和 AI:所有有關機器學習、AI、生成式 AI 的功能以及串流分析。
資料倉儲:支援 DWH 和 BI 使用案例的網域。
協調流程:資料處理、機器學習和分析管線的集中工作流程管理。
ETL 和 DS 工具:資料工程師、資料科學家和 ML 工程師在工作中主要使用的前端工具。
BI 工具:BI 分析師在工作中主要使用的前端工具。
共同作業:兩個或多個參與方之間共用資料的功能。
Databricks 平台的範圍
Databricks Data Intelligence Platform 及其元件可以透過下列方式對應至架構:
下載:Lakehouse 的範圍 - Databricks 元件
Azure Databricks 上的資料工作負載
最重要的是,Databricks Data Intelligence Platform 在一個平台中涵蓋了資料網域的所有相關工作負載,使用 Apache Spark/Photon 作為引擎:
內嵌和轉換
對於資料擷取,自動載入器可在計畫或連續作業中以累加方式自動處理雲端儲存中的檔案,而無需管理狀態資訊。 擷取之後,需要轉換未經處理資料,準備將其用於 BI 和 ML/AI。 Databricks 為資料工程師、資料科學家和分析師提供強大的 ETL 功能。
差異即時資料表 (DLT) 允許以宣告方式編寫 ETL 作業,從而簡化了整個實作程序。 可以透過定義資料預期來提高資料品質。
進階分析、ML 和 AI
此平台包括 Databricks Mosaic AI,這是一組完全整合的機器學習和 AI 工具,用於傳統機器學習和深度學習以及生成式 AI 和大型語言模型 (LLM)。 其涵蓋整個工作流程,從準備資料至建置機器學習和深度學習模型,再至 Mosaic AI 模型服務。
Spark 結構化串流和 DLT 可啟用即時分析。
資料倉儲
Databricks Data Intelligence Platform 還具有完整的資料倉儲解決方案,其中包含 Databricks SQL,由 Unity Catalog 集中控管,具有精細的存取控制。
Azure Databricks 特徵區域概述
這是 Databricks Data Intelligence Platform 特徵從下到上對應至架構的其他層級:
雲端儲存空間
Lakehouse 的所有資料都儲存在雲端提供者的物件儲存體中。 Databricks 支援三個雲端提供者:AWS、Azure 和 GCP。 採用各種結構化和半結構化格式 (例如,Parquet、CSV、JSON 和 Avro) 以及非結構化格式 (例如,影像和文件) 的檔案是使用批次或串流程序來內嵌和轉換的。
Delta Lake 是 Lakehouse (檔案交易、可靠性、一致性、更新等等) 的建議資料格式,並且是完全開放原始碼的,以避免產生依賴。 而 Delta 通用格式 (UniForm) 可讓您使用 Iceberg 閱讀器用戶端讀取差異資料表。
Databricks Data Intelligence Platform 中不使用專屬資料格式。
資料控管
在儲存層的基礎上,Unity Catalog 提供廣泛的資料控管功能,包括中繼存放區中的中繼資料管理、存取控制、稽核、資料探索和資料譜系。
Lakehouse 監視為資料和 AI 資產提供現成的品質計量,並自動產生儀表板以視覺化這些計量。
外部 SQL 來源可以透過 Lakehouse 同盟整合到 Lakehouse 和 Unity Catalog。
AI 引擎
Data Intelligence Platform 基於 Lakehouse 架構建置,由資料智慧引擎 DatabricksIQ 增強。 DatabricksIQ 將生成式 AI 與 Lakehouse 架構的統一優勢相結合,以理解資料的獨特語意。 智慧搜尋和 Databricks 助理是 AI 支援的服務的範例,可簡化每個使用者的平台操作。
協調流程
Databricks 作業可讓您在任何雲端上為完整資料和 AI 生命週期執行各種工作負載。 它們可讓您協調作業,以及適用於 SQL、Spark、筆記本、DBT、ML 模型等的差異即時資料表。
ETL 和 DS 工具
在取用層,資料工程師和 ML 工程師通常透過 IDE 來使用平台。 資料科學家通常偏好筆記本,並使用 ML 和 AI 執行階段,以及機器學習工作流程系統 MLflow 來追蹤實驗和管理模型生命週期。
BI 工具
商務分析師通常使用慣用的 BI 工具來存取 Databricks 資料倉儲。 您可以透過不同的分析和 BI 工具查詢 Databricks SQL,請參閱 BI 和視覺效果
此外,平台提供現成的查詢和分析工具:
共同作業
差異共用是由 Databricks 開發的開放通訊協定,可供與其他組織安全地共用資料,不論他們使用什麼計算平台。
Databricks Marketplace 是用於交換資料產品的開放論壇。 其利用差異共用為資料提供者提供可安全共用資料產品的工具,並讓資料取用者可以探索和擴展對所需資料和資料服務的存取權。