Lakehouse 平臺的範圍

新式數據和 AI 平台架構

若要討論 Databricks Data Intelligence Platform 的範圍,先定義新式數據和 AI 平臺的基本架構會很有説明:

雲端數據分析架構

Lakehouse 範圍概觀

Databricks Data Intelligence Platform 涵蓋完整的現代化數據平台架構。 其建置在 Lakehouse 架構上,並由數據智慧引擎提供,可了解數據的獨特品質。 它是 ETL、ML/AI 和 DWH/BI 工作負載的開放且統一的基礎,並提供 Unity 目錄作為中央數據和 AI 治理解決方案。

平台架構的角色

此架構涵蓋主要資料小組成員(角色)在架構中處理應用程式:

  • 數據工程師為 數據科學家和商務分析師提供準確且可重現的數據,以即時決策和即時深入解析。 他們會實作高度一致且可靠的 ETL 程式,以提高使用者對數據的信心和信任。 它們可確保數據與企業的各種要素緊密整合,且通常會遵循軟體工程最佳做法。
  • 數據科學家將 分析專業知識和商務理解混合在一起,以將數據轉換成策略見解和預測模型。 它們擅長將商務挑戰轉譯成數據驅動解決方案,即透過回顧性分析見解或前瞻性預測模型。 利用數據模型化和機器學習技術,他們設計、開發和部署模型,以揭開數據中的模式、趨勢和預測。 它們充當橋樑,將複雜的數據敘述轉換成可理解的故事,確保業務專案關係人不僅瞭解,還可以根據數據驅動的建議採取行動,進而推動以數據為中心的方法來解決組織內的問題。
  • ML 工程師 (機器學習工程師)藉由建置、部署和維護機器學習模型,在產品和解決方案中領導數據科學的實際應用。 其主要焦點會轉向模型開發和部署的工程層面。 ML 工程師可確保即時環境中機器學習系統的健全性、可靠性和延展性,解決與數據品質、基礎結構和效能相關的挑戰。 藉由將 AI 和 ML 模型整合到營運商務程式和使用者面向產品中,它們可協助利用數據科學來解決商務挑戰,確保模型不僅停留在研究中,還能推動有形的商業價值。
  • 商務分析師可 讓項目關係人和商務小組擁有可採取動作的數據。 它們通常會使用標準 BI 工具來解譯數據並建立報表或其他檔以供領導階層使用。 它們通常是非技術性商務和營運同事的連絡點,以快速分析問題。
  • 商務夥伴 是日益網路化商業世界中的重要項目關係人。 它們定義為企業有正式關係以達成共同目標的公司或個人,並可包括廠商、供應商、轉銷商和其他第三方合作夥伴。 數據共用是商務合作關係的重要層面,因為它可讓數據傳輸和交換數據,以增強共同作業和數據驅動決策。

平台架構的網域

平臺包含多個網域:

  • 儲存體:在雲端中,數據主要儲存在雲端提供者所提供的可調整、有效率且具彈性的雲端物件記憶體中。
  • 治理: 數據控管的功能,例如訪問控制、稽核、元數據管理、譜系追蹤、監視所有數據和 AI 資產。
  • AI 引擎: AI 引擎提供整個平臺的再生 AI 功能。
  • 內嵌和轉換 ETL 工作負載的功能。
  • 進階分析、ML 和 AI 圍繞機器學習、AI、Generative AI 以及串流分析的所有功能。
  • 數據倉儲 支援 DWH 和 BI 使用案例的網域。
  • 中央工作流程管理和 的協調流程 網域
  • ETL 和 DS 工具: 資料工程師、數據科學家和 ML 工程師主要用於工作的前端工具。
  • BI 工具: BI 分析師主要用於工作的前端工具。
  • 共同作業:兩個或多個合作對象之間數據共用的功能。

Databricks 平臺的範圍

Databricks Data Intelligence Platform 及其元件可以透過下列方式對應至架構:

湖屋的範圍

下載:Lakehouse 的範圍 - Databricks 元件

最重要的是,Databricks Data Intelligence 平台涵蓋一個平台中數據網域的所有相關工作負載,而 Apache Spark/Photon 作為引擎:

將 Databricks Data Intelligence Platform 功能對應至架構的其他層級,從下到上:

  • 雲端儲存空間

    Lakehouse 的所有數據都會儲存在雲端提供者的物件記憶體中。 Databricks 支援三個雲端提供者:AWS、Azure 和 GCP。 各種結構化和半結構化格式的檔案(例如 Parquet、CSV、JSON、Avro)以及非結構化格式(例如影像)會使用批次或串流程式來內嵌和轉換。

    Delta Lake 是 Lakehouse 的建議數據格式(檔案交易、可靠性、一致性、更新等等),而且完全 開放原始碼 以避免鎖定。 而 Delta 通用格式 (UniForm) 可讓您使用 Iceberg 讀取器用戶端讀取 Delta 數據表。

    Databricks Data Intelligence Platform 中不會使用任何專屬的數據格式。

  • 資料控管

    在儲存層之上,Unity 目錄提供各種數據控管功能,包括中繼存放區中的元數據管理訪問控制、稽核數據探索數據譜系。

    Lakehouse 監視 提供數據與 AI 資產的現用品質計量,以及自動產生的儀錶板,以可視化這些計量。

    外部 SQL 來源可以透過 Lakehouse 同盟整合到 Lakehouse 和 Unity 目錄。

  • AI 引擎

    數據智慧平臺建置在 Lakehouse 架構上,並由數據智慧引擎 DatabricksIQ 增強。 DatabricksIQ 結合了產生 AI 與 Lakehouse 架構的統一優點,以了解數據的獨特語意。 智慧型搜尋和 Databricks Assistant 是 AI 支援的服務,可簡化每個用戶的平臺使用。

  • 協調流程

    Databricks 工作流程 可讓您在任何雲端上執行各種工作負載,以取得完整的數據和 AI 生命週期。 它們可讓您協調作業,以及適用於 SQL、Spark、筆記本、DBT、ML 模型等的 Delta 實時數據表。

  • ETL 和 DS 工具

    在耗用量層,數據工程師和 ML 工程師通常會使用 IDE 與平臺合作。 數據科學家通常會偏好 筆記本 ,並使用 ML 和 AI 運行時間,以及機器學習工作流程系統 MLflow 來追蹤實驗和管理模型生命週期。

  • BI 工具

    商務分析師通常會使用慣用的BI工具來存取 Databricks 數據倉儲。 您可以透過不同的分析和 BI 工具查詢 Databricks SQL,請參閱 BI 和視覺效果

    此外,平台現成提供查詢和分析工具:

  • 共同作業

    Delta Sharing 是由 Databricks 開發的開放式通訊協定 ,可供與其他組織安全地共享數據,而不論其使用何種運算平臺。

    Databricks Marketplace 是交換數據產品的開放論壇。 它利用 Delta Sharing 為數據提供者提供工具,以安全地共用數據產品,以及數據取用者探索和擴充其存取所需的數據和數據服務的強大功能。