使用无服务器实时推理进行模型服务
重要
- 本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术不再受支持。
- 本文中的指南适用于模型服务功能(以前称为无服务器实时推理)的预览版本。 Databricks 建议将模型服务工作流迁移到正式版功能。 请参阅 Azure Databricks 中的模型服务。
重要
此功能目前以公共预览版提供。
本文介绍使用 Azure Databricks 无服务器实时推理进行模型服务,包括与旧 MLflow 模型服务相比的优势和限制。
无服务器实时推理将 MLflow 机器学习模型公开为可缩放的 REST API 终结点。 此功能使用无服务器计算,这意味着终结点和关联的计算资源在 Databricks 帐户中进行管理和运行。 有关更多详细信息,请参阅无服务器实时推理定价页。
旧 MLflow 模型服务使用单节点群集,当前该群集在称为经典计算平面的帐户下运行。 此计算平面包括虚拟网络及其关联的计算资源,例如笔记本和作业的群集、专业 SQL 仓库和经典 SQL 仓库以及经典模型服务终结点。
为何使用无服务器实时推理?
无服务器实时推理提供以下功能:
- 可一键启动终结点:Databricks 自动准备模型的生产就绪环境,并提供针对计算的无服务器配置选项。
- 高可用性和可伸缩性:无服务器实时推理旨在用于生产,可支持高达每秒 3000 次查询 (QPS)。 无服务器实时推理终结点可自动纵向扩展和缩减,即终结点会根据评分请求的数量自动调整。
- 仪表板:使用内置的无服务器实时推理仪表板,可通过 QPS、延迟和错误率等指标来监视模型终结点的运行状况。
- 特征存储集成:使用 Databricks 特征存储中的特征训练模型时,该模型将与特征元数据一起打包。 如果配置联机存储,则会在收到评分请求时实时合并这些特征。
限制
虽然此服务处于预览状态,但具有以下限制:
- 有效负载大小限制为每个请求 16 MB。
- 每个已注册工作区的评分请求默认限制为 200 QPS。 你可联系 Databricks 支持联系人,将此限制上调至每个工作区最多 3000 QPS。
- 对少于 100 毫秒的延迟开销和可用性提供最佳支持。
- 模型服务不支持初始化脚本。
无服务器实时推理终结点对入站流量 Internet 开放,除非工作区中启用了 IP 允许列表,在这种情况下,此列表也适用于终结点。
上市区域
无服务器实时推理在以下 Azure 区域中可用:
- eastus2
- westus
- eastus
- westeurope
- centralus
- northcentralus
- northeurope
暂存和生产时间预期
将模型从暂存转换为生产需要时间。 部署新注册的模型版本需要生成模型容器映像和预配模型终结点。 此过程可能需要 5 分钟左右。
通过在新模型部署准备就绪之前保持现有模型部署,Databricks 可实现 /staging
和 /production
终结点的“无停机”更新。 这样做可确保不中断使用中的模型终结点。
如果模型计算花费的时间超过 60 秒,则请求将超时。如果认为模型计算需要 60 秒以上的时间,请联系 Databricks 支持联系人。
先决条件
重要
在公共预览版期间,需要联系 Databricks 支持联系人,才可在工作区上启用无服务器实时推理。
在创建无服务器实时推理终结点之前,必须在工作区上对其进行启用。 请参阅为模型服务启用无服务器实时推理终结点。
在工作区上启用无服务器实时推理终结点后,需要以下权限才可创建用于模型服务的终结点:
其他资源
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈