共用方式為


Lakehouse 平台的範圍

新式資料和 AI 平台架構

若要討論 Databricks Data Intelligence Platform 的範圍,先定義新式資料和 AI 平台的基本架構會很有用:

雲端資料分析架構

Lakehouse 範圍概觀

Databricks Data Intelligence Platform 涵蓋完整的新式資料平台架構。 其建置在 Lakehouse 架構之上,由資料智慧引擎提供支援,該引擎可理解資料的獨特品質。 它是 ETL、ML/AI 和 DWH/BI 工作負載的開放統一基礎,並具有 Unity Catalog 作為中央資料和 AI 治理解決方案。

平台架構的角色

此架構涵蓋在架構中處理應用程式的主要資料小組成員 (角色):

  • 資料工程師為資料科學家和商務分析師提供準確且可重現的資料,以便及時做出決策和提供即時見解。 他們實作高度統一且可靠的 ETL 程序,以增加使用者對資料的信心和信任。 他們確保資料與商務的各個支柱很好地整合,並且通常遵循軟體工程最佳做法。
  • 資料科學家結合分析專長和商務見解,將資料轉化為策略見解和預測模型。 他們善於將商務挑戰轉換為資料驅動型解決方案,即透過追溯分析見解或前瞻性預測建模。 利用資料建模和機器學習技術,他們設計、開發和部署模型,透過資料揭示模式、趨勢和預測。 他們充當溝通的橋樑,將複雜的資料敘述轉換為可理解的案例,確保商務專案關係人不僅理解,而且還可以根據資料驅動型建議採取行動,進而推動以資料為中心的方法來解決組織內部的問題。
  • ML 工程師 (機器學習工程師) 透過建置、部署和維護機器學習模型,領導資料科學在產品和解決方案中的實際應用。 他們主要關注模型開發和部署的工程方面。 ML 工程師確保機器學習系統在即時環境中的穩健性、可靠性和可擴縮性,應對與資料品質、基礎結構和效能相關的挑戰。 透過將 AI 和 ML 模型整合到運營商務程序和面向使用者的產品,他們促進了利用資料科學來解決商務挑戰,確保模型不僅僅停留在研究階段,而是能帶來切實的商業價值。
  • 商務分析師為利害關係人和商務小組提供可採取動作的資料。 他們通常使用標準 BI 工具為領導階層解譯資料並建立報表或其他文件。 對於非技術商務和運營部門的同事而言,他們通常是快速分析問題的首選連絡人。
  • 商務合作夥伴是日益網路化的商務世界中的重要利害關係人。 他們定義為與企業建立了正式關係以實現共同目標的公司或個人,可以包括廠商、供應商、經銷商和其他協力廠商合作夥伴。 資料共用是商務合作關係的一個重要方面,因為它透過資料傳輸和交換資料來增強協作和資料驅動型決策。

平台架構的網域

平台包含多個網域:

  • 儲存體:在雲端中,資料主要儲存在雲端提供者的可擴縮、高效且可復原的物件儲存體中。

  • 控管:有關資料控管的功能,例如存取控制、稽核、中繼資料管理、譜系追蹤、以及所有資料和 AI 資產的監視。

  • AI 引擎:AI 引擎為整個平台提供生成式 AI 功能。

  • 內嵌和轉換:ETL 工作負載的功能。

  • 進階分析、ML 和 AI:所有有關機器學習、AI、生成式 AI 的功能以及串流分析。

  • 資料倉儲:支援 DWH 和 BI 使用案例的網域。

  • 協調流程:資料處理、機器學習和分析管線的集中工作流程管理。

  • ETL 和 DS 工具:資料工程師、資料科學家和 ML 工程師在工作中主要使用的前端工具。

  • BI 工具:BI 分析師在工作中主要使用的前端工具。

  • 共同作業:兩個或多個參與方之間共用資料的功能。

Databricks 平台的範圍

Databricks Data Intelligence Platform 及其元件可以透過下列方式對應至架構:

Lakehouse 的範圍

下載:Lakehouse 的範圍 - Databricks 元件

Azure Databricks 上的資料工作負載

最重要的是,Databricks Data Intelligence Platform 在一個平台中涵蓋了資料網域的所有相關工作負載,使用 Apache Spark/Photon 作為引擎:

Azure Databricks 特徵區域概述

這是 Databricks Data Intelligence Platform 特徵從下到上對應至架構的其他層級:

  • 雲端儲存空間

    Lakehouse 的所有資料都儲存在雲端提供者的物件儲存體中。 Databricks 支援三個雲端提供者:AWS、Azure 和 GCP。 採用各種結構化和半結構化格式 (例如,Parquet、CSV、JSON 和 Avro) 以及非結構化格式 (例如,影像和文件) 的檔案是使用批次或串流程序來內嵌和轉換的。

    Delta Lake 是 Lakehouse (檔案交易、可靠性、一致性、更新等等) 的建議資料格式,並且是完全開放原始碼的,以避免產生依賴。 而 Delta 通用格式 (UniForm) 可讓您使用 Iceberg 閱讀器用戶端讀取差異資料表。

    Databricks Data Intelligence Platform 中不使用專屬資料格式。

  • 資料控管

    在儲存層的基礎上,Unity Catalog 提供廣泛的資料控管功能,包括中繼存放區中的中繼資料管理存取控制稽核資料探索資料譜系

    Lakehouse 監視為資料和 AI 資產提供現成的品質計量,並自動產生儀表板以視覺化這些計量。

    外部 SQL 來源可以透過 Lakehouse 同盟整合到 Lakehouse 和 Unity Catalog。

  • AI 引擎

    Data Intelligence Platform 基於 Lakehouse 架構建置,由資料智慧引擎 DatabricksIQ 增強。 DatabricksIQ 將生成式 AI 與 Lakehouse 架構的統一優勢相結合,以理解資料的獨特語意。 智慧搜尋和 Databricks 助理是 AI 支援的服務的範例,可簡化每個使用者的平台操作。

  • 協調流程

    Databricks 作業可讓您在任何雲端上為完整資料和 AI 生命週期執行各種工作負載。 它們可讓您協調作業,以及適用於 SQL、Spark、筆記本、DBT、ML 模型等的差異即時資料表。

  • ETL 和 DS 工具

    在取用層,資料工程師和 ML 工程師通常透過 IDE 來使用平台。 資料科學家通常偏好筆記本,並使用 ML 和 AI 執行階段,以及機器學習工作流程系統 MLflow 來追蹤實驗和管理模型生命週期。

  • BI 工具

    商務分析師通常使用慣用的 BI 工具來存取 Databricks 資料倉儲。 您可以透過不同的分析和 BI 工具查詢 Databricks SQL,請參閱 BI 和視覺效果

    此外,平台提供現成的查詢和分析工具:

    • 儀表板,用於拖放資料視覺效果並共用見解。
    • SQL 編輯器,供 SQL 分析師分析資料。
  • 共同作業

    差異共用是由 Databricks 開發的開放通訊協定,可供與其他組織安全地共用資料,不論他們使用什麼計算平台。

    Databricks Marketplace 是用於交換資料產品的開放論壇。 其利用差異共用為資料提供者提供可安全共用資料產品的工具,並讓資料取用者可以探索和擴展對所需資料和資料服務的存取權。