湖屋平台的范围

新式数据和 AI 平台框架

为了讨论 Databricks Data Intelligence Platform 的范围,首先要定义新式数据和 AI 平台的基本框架:

云数据分析框架

湖屋范围概述

Databricks Data Intelligence Platform 涵盖完整的新式数据平台框架。 它建立在湖屋体系结构之上,由数据智能引擎提供支持,该引擎可理解数据的独特之处。 它是 ETL、ML/AI 和 DWH/BI 工作负载的开放统一基础,并具有 Unity Catalog 作为中央数据和 AI 治理解决方案。

平台框架的角色

该框架涵盖在框架中处理应用程序的主要数据团队成员(角色):

  • 数据工程师为数据科学家和业务分析师提供准确且可重现的数据,以便及时做出决策和提供实时见解。 他们实现高度统一且可靠的 ETL 过程,以增加用户对数据的信心和信任。 他们确保数据与业务的各个支柱很好地集成,并且通常遵循软件工程最佳做法。
  • 数据科学家结合分析专长和业务理解,将数据转化为战略见解和预测模型。 他们善于将业务挑战转化为数据驱动的解决方案,即通过追溯分析见解或前瞻性预测建模。 利用数据建模和机器学习技术,他们设计、开发和部署模型,从数据中揭示模式、趋势和预测。 他们充当沟通的桥梁,将复杂的数据叙述转换为可理解的故事,确保业务利益干系人不仅理解,还可以处理数据驱动的建议采取行动,进而推动以数据为中心的方法来解决组织内部的问题。
  • ML 工程师(机器学习工程师)通过构建、部署和维护机器学习模型,领导数据科学在产品和解决方案中的实际应用。 他们主要关注模型开发和部署的工程方面。 ML 工程师确保机器学习系统在实时环境中的稳健性、可靠性和可伸缩性,应对与数据质量、基础结构和性能相关的挑战。 通过将 AI 和 ML 模型集成到运营业务流程和面向用户的产品中,他们促进了利用数据科学来解决业务挑战,确保模型不仅仅停留在研究阶段,而是能带来切实的业务价值。
  • 业务分析师为利益干系人和业务团队提供可操作的数据。 他们通常使用标准 BI 工具为领导层解释数据并创建报表或其他文档。 对于非技术业务和运营部门的同事而言,他们通常是快速分析问题的首选联系人。
  • 业务合作伙伴是日益网络化的商业世界中的重要利益干系人。 他们的定义是与企业建立了正式关系以实现共同目标的公司或个人,可以包括销售商、供应商、分销商和其他第三方合作伙伴。 数据共享是业务伙伴关系的一个重要方面,因为它通过数据传输和交换数据来增强协作和数据驱动的决策。

平台框架的域

平台由多个域组成:

  • 存储: 在云中,数据主要存储在云提供商的可缩放、高效且可复原的对象存储中。

  • 治理:有关数据治理的功能,例如访问控制、审核、元数据管理、世系跟踪、以及所有数据和 AI 资产的监视。

  • AI 引擎:AI 引擎为整个平台提供生成式 AI 功能。

  • 引入和转换:ETL 工作负载的功能。

  • 高级分析、ML 和 AI:所有围绕机器学习、AI、生成式 AI 的功能以及流分析。

  • 数据仓库:支持 DWH 和 BI 用例的域。

  • 业务流程:数据处理、机器学习和分析管道的集中式工作流管理。

  • ETL 和 DS 工具:数据工程师、数据科学家和 ML 工程师在工作中主要使用的前端工具。

  • BI 工具:BI 分析师在工作中主要使用的前端工具。

  • 协作:两个或多个参与方之间共享数据的功能。

Databricks 平台的范围

可通过以下方式将 Databricks Data Intelligence Platform 及其组件映射到框架:

湖屋的范围

下载:湖屋的范围 - Databricks 组件

Azure Databricks 上的数据工作负荷

最重要的是,Databricks Data Intelligence Platform 在一个平台中涵盖了数据域的所有相关工作负载,使用 Apache Spark/Photon 作为引擎:

Azure Databricks 功能区域的概述

这是 Databricks Data Intelligence Platform 功能从下到上映射到框架的其他层:

  • 云存储

    湖屋的所有数据都存储在云提供商的对象存储中。 Databricks 支持三个云提供商:AWS、Azure 和 GCP。 采用各种结构化和半结构化格式(例如 Parquet、CSV、JSON 和 Avro)以及非结构化格式(例如,图像和文档)的文件是通过批处理或流式处理进程来引入和转换的。

    Delta Lake 是湖屋(文件事务、可靠性、一致性、更新等)的建议数据格式,并且是完全开源的,以避免产生依赖。 而 Delta 通用格式 (UniForm) 允许使用 Iceberg 阅读器客户端读取 Delta 表。

    Databricks Data Intelligence Platform 中不使用专有数据格式。

  • 数据治理

    在存储层的基础上,Unity Catalog 提供广泛的数据治理功能,包括元存储中的元数据管理访问控制审核数据发现、和数据世系

    湖屋监视为数据和 AI 资产提供现成的质量指标,并自动生成仪表板以可视化这些指标。

    外部 SQL 源可以通过湖屋联合身份验证集成到湖屋和 Unity Catalog 中。

  • AI 引擎

    Data Intelligence Platform 基于湖屋体系结构构建,由数据智能引擎 DatabricksIQ 增强。 DatabricksIQ 将生成式 AI 与湖屋体系结构的统一优势相结合,以理解数据的独特语义。 智能搜索和 Databricks 助手是 AI 支持的服务的范例,可简化每个用户的平台操作。

  • 业务流程

    Databricks 作业使你能够在任何云上为完整数据和 AI 生命周期运行各种工作负载。 它们可用于协调作业以及 SQL、Spark、笔记本、DBT、ML 模型等的增量实时表。

  • ETL 和 DS 工具

    在消耗层,数据工程师和 ML 工程师通常使用 IDE 来使用平台。 数据科学家通常更喜欢笔记本,并使用 ML 和 AI 运行时,以及机器学习工作流系统 MLflow 来跟踪试验和管理模型生命周期。

  • BI 工具

    业务分析师通常使用他们的首选 BI 工具来访问 Databricks 数据仓库。 可以通过不同的分析和 BI 工具查询 Databricks SQL,详情请参阅 BI 和可视化效果

    此外,该平台提供现成的查询和分析工具:

    • 仪表板,用于拖放数据可视化效果并共享见解。
    • 提供 SQL 编辑器,供 SQL 分析师分析数据。
  • 协作

    Delta Sharing 是由 Databricks 开发的开放协议,用于与其他组织进行安全的数据共享,而不考虑他们使用的计算平台。

    Databricks Marketplace是用于交换数据产品的开放论坛。 它利用 Delta Sharing 为数据提供者提供可安全共享数据产品的工具,并让数据使用者能够发现和扩展对所需数据和数据服务的访问权限。