Databricks 上的 AI 和机器学习
本文介绍由 Mosaic AI(以前称为 Databricks 机器学习)提供、可帮助生成 AI 和 ML 系统的工具。 此关系图显示了 Databricks 平台上的各种产品如何帮助实现端到端工作流,以生成和部署 AI 和 ML 系统
Databricks 上的生成式 AI
Mosaic AI 统一了 AI 生命周期,从数据收集和准备到模型开发和 LLMOps,再到服务和监视。 以下功能经过专门优化,以促进生成式 AI 应用程序的开发:
- Unity Catalog,用于对数据、功能、模型和函数进行治理、发现、版本控制和访问控制。
- 用于模型开发跟踪的 MLflow。
- Mosaic AI 模型服务,用于部署 LLM。 可以配置专门用于访问生成式 AI 模型的模型服务终结点:
- 使用基础模型 API 的最先进的开放式 LLM。
- 在 Databricks 外部托管的第三方模型。 请参阅 Mosaic AI 模型服务中的外部模型。
- Mosaic AI 矢量搜索提供了一个可查询矢量数据库,用于存储嵌入矢量,并且可以配置为自动同步到你的知识库。
- Lakehouse Monitoring,用于使用自动有效负载日志记录和推理表进行数据监视和跟踪模型预测质量和偏移。
- AI 操场,用于从 Databricks 工作区测试生成式 AI 模型。 可提示、比较和调整设置,例如系统提示和推理参数。
- 使用 Mosaic AI 模型训练(前基础模型训练)时,可以使用自己的数据来自定义基础模型,以针对特定应用优化其性能。
- Mosaic AI 代理框架,用于生成和部署生产质量代理,例如检索增强生成 (RAG) 应用程序。
- Mosaic AI 代理评估,用于评估生成式 AI 应用程序(包括 RAG 应用程序和链)的质量、成本和延迟。
什么是生成式 AI?
生成式 AI 是一种人工智能,侧重于计算机使用模型创建图像、文本、代码和综合数据等内容的能力。
生成式 AI 应用程序基于生成式 AI 模型来构建:大型语言模型 (LLM) 和基础模型。
- LLM 是深度学习模型,使用和训练大规模数据集,从而在语言处理任务中脱颖而出。 它们基于其训练数据创建模仿自然语言的新的文本组合。
- 生成 AI 模型或基础模型是预先训练的大型 ML 模型 ,目的是对其进行微调,以便更具体的语言理解和生成任务。 这些模型用于识别输入数据中的模式。
这些模型完成学习过程后,将在出现提示时共同生成统计上可能的输出,并可用于完成各种任务,包括:
- 基于现有图像生成图像,或利用一幅图像的风格来修改或创建新图像。
- 语音任务,如听录、翻译、问答生成以及文本意向或含义的解释。
重要
虽然许多 LLM 或其他生成式 AI 模型具有安全措施,但它们仍然可能生成有害或不准确的信息。
生成式 AI 具有以下设计模式:
- 提示工程:制作专门的提示来引导 LLM 的行为
- 检索增强生成 (RAG):将 LLM 与外部知识检索相结合
- 微调:调整预训练的 LLM 以适应特定的域数据集
- 预训练:从头开始训练 LLM
Databricks 上的机器学习
借助 Mosaic AI,从原始数据到保存所服务模型的每个请求和响应的推理表,单个平台为 ML 开发和部署的每个步骤提供服务。 数据科学家、数据工程师、ML 工程师和 DevOps 可使用同一组工具和数据的单一事实来源来执行其工作。
Mosaic AI 将数据层和 ML 平台统一起来。 所有数据资产和项目(如模型和函数)都可在单个目录中发现和管理。 对数据和模型使用单个平台使得跟踪从原始数据到生产模型的世系成为可能。 内置数据和模型监控将质量指标保存到同样存储在平台的表中,从而更轻松地确定模型性能问题的根本原因。 有关 Databricks 如何支持完整的 ML 生命周期和 MLOps 的详细信息,请参阅“Azure Databricks 上的 MLOps 工作流”和“MLOps 堆栈:将开发过程建模为代码”。
数据智能平台的一些关键组件包括:
任务 | 组件 |
---|---|
治理和管理数据、功能、模型和函数。 此外,还有发现、版本控制以及世系。 | Unity Catalog |
跟踪数据、数据质量和模型预测质量的更改 | Lakehouse Monitoring、推理表 |
特征开发和管理 | 特征工程和服务。 |
训练模型 | 马赛克 AutoML、 Databricks 笔记本 |
跟踪模型开发 | MLflow 跟踪 |
提供自定义模型 | Mosaic AI 模型服务。 |
生成自动化工作流和生产就绪 ETL 管道 | Databricks 作业 |
Git 集成 | Databricks Git 文件夹 |
Databricks 中的深度学习
配置深度学习应用程序的基础结构可能很困难。 适用于机器学习的 Databricks Runtime 可为你处理这一任务,它包含内置兼容版本的最常见深度学习库(如 TensorFlow、PyTorch 和 Keras)的群集。
Databricks Runtime ML 群集还包括预配置的 GPU 支持以及驱动程序和支持库。 它还支持 Ray 等库,以便并行化计算处理来缩放 ML 工作流和 ML 应用程序。
Databricks Runtime ML 群集还包括预配置的 GPU 支持以及驱动程序和支持库。 通过 Mosaic AI 模型服务,可为没有额外配置的深度学习模型创建可缩放的 GPU 终结点。
对于机器学习应用程序,Databricks 建议使用运行用于机器学习的 Databricks Runtime 的群集。 请参阅使用 Databricks Runtime ML 创建群集。
若要开始在 Databricks 上进行深度学习,请参阅:
后续步骤
如要入门,请参阅:
有关 Databricks Mosaic AI 上建议的 MLOps 工作流,请参阅:
若要了解重要的 Databricks Mosaic AI 功能,请参阅: