在Azure Databricks上生成、部署和管理机器学习应用程序。 集成平台将整个 ML 生命周期从数据准备到生产监视统一。
在寻找生成式 AI 和 AI 智能体? 请参阅 在 Azure Databricks 上构建 AI 代理。
开始
请尝试快速入门、准备数据或生成低代码模型。
| 指南 | Description |
|---|---|
| 入门:在 Databricks 上构建第一个机器学习模型 | 使用 scikit-learn 端到端构建简单的分类模型。 |
| AutoML | 使用自动化功能工程和超参数优化,使用最少的代码自动生成高质量的模型。 |
| 加载机器学习和深度学习的数据 | 加载并准备适用于机器学习和深度学习工作流的数据。 |
| 训练推荐器模型 | 使用双塔或 DLRM 体系结构训练推荐器模型。 |
训练经典机器学习模型
使用自动化工具和协作开发环境创建机器学习模型。
| Feature | Description |
|---|---|
| 用于 ML 的 Databricks Runtime | 使用 scikit-learn、XGBoost、MLflow 和其他 ML 库预先配置的群集,以及对深度学习框架的支持。 |
| MLflow 跟踪 | 跟踪试验、比较模型性能以及管理完整的模型开发生命周期。 |
| 特征工程 | 使用自动化数据管道和功能发现创建、管理和提供功能。 |
| Databricks 笔记本 | 协作开发环境,支持 Python、R、Scala 和 SQL for ML 工作流。 |
训练深度学习模型
使用托管计算和内置框架开发深度学习模型。
| Feature | Description |
|---|---|
| 分布式训练 | 使用 Ray、TorchDistributor 和 DeepSpeed 进行分布式深度学习的示例。 |
| AI 运行时 | 用于自定义深度学习训练和推理工作负荷的无服务器 GPU 计算。 |
| DL 最佳做法 | 框架选择、数据加载、分布式缩放和管理深度学习模型生命周期指南。 |
| PyTorch | 使用 PyTorch 的单节点和分布式训练。 |
部署和提供模型
使用可缩放的终结点、实时推理和企业级监视将模型部署到生产环境。
| Feature | Description |
|---|---|
| 模型服务 | 使用自动缩放和 GPU 支持将自定义模型和 LLM 部署为可缩放的 REST 终结点。 |
| AI 网关 | 使用使用情况跟踪、有效负载日志记录和安全控制来管理和监视对Azure Databricks上提供的模型的访问。 |
| 外部模型 | 将 Databricks 外部托管的第三方模型与统一的治理和监视集成。 |
| 基础模型 API | 访问和查询 Databricks 托管的最先进的开放模型。 |
监视和管理 ML 系统
通过全面的监视和治理工具确保模型质量、数据完整性和合规性。
| Feature | Description |
|---|---|
| Unity Catalog | 使用统一的访问控制、世系跟踪和发现来管理数据、功能、模型和函数。 |
| 数据分析 | 使用自动警报和根本原因分析监视数据质量、模型性能和预测偏差。 |
| 异常情况检测 | 在目录级别监视数据新鲜度和完整性。 |
| MLflow 模型管理 | 跟踪试验、管理 Unity 目录中的模型、部署和评估整个开发生命周期中的机器学习模型。 |
将机器学习工作流投入生产环境
使用自动化工作流、CI/CD 集成和可用于生产的管道,以扩展机器学习操作。
| Feature | Description |
|---|---|
| Unity Catalog 中的模型 | 使用 Unity 目录中的模型注册表进行集中治理,并管理模型生命周期,包括部署。 |
| Lakeflow 作业 | 生成自动化工作流和生产就绪的 ETL 管道,以便进行 ML 数据处理。 |
| Databricks 上的 Ray | 使用分布式计算缩放 ML 工作负荷,以便进行大规模模型训练和推理。 |
| MLOps 工作流 | 使用自动化的训练、测试和部署流水线实现端到端的MLOps流程。 |