使用无服务器实时推理进行模型服务

重要

  • 本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术不再受支持。
  • 本文中的指南适用于模型服务功能(以前称为无服务器实时推理)的预览版本。 Databricks 建议将模型服务工作流迁移到正式版功能。 请参阅 Azure Databricks 中的模型服务

重要

此功能目前以公共预览版提供。

本文介绍使用 Azure Databricks 无服务器实时推理进行模型服务,包括与旧 MLflow 模型服务相比的优势和限制。

无服务器实时推理将 MLflow 机器学习模型公开为可缩放的 REST API 终结点。 此功能使用无服务器计算,这意味着终结点和关联的计算资源在 Databricks 帐户中进行管理和运行。 有关更多详细信息,请参阅无服务器实时推理定价页

旧 MLflow 模型服务使用单节点群集,当前该群集在称为经典计算平面的帐户下运行。 此计算平面包括虚拟网络及其关联的计算资源,例如笔记本和作业的群集、专业 SQL 仓库和经典 SQL 仓库以及经典模型服务终结点。

为何使用无服务器实时推理?

无服务器实时推理提供以下功能:

  • 可一键启动终结点:Databricks 自动准备模型的生产就绪环境,并提供针对计算的无服务器配置选项。
  • 高可用性和可伸缩性:无服务器实时推理旨在用于生产,可支持高达每秒 3000 次查询 (QPS)。 无服务器实时推理终结点可自动纵向扩展和缩减,即终结点会根据评分请求的数量自动调整。
  • 仪表板:使用内置的无服务器实时推理仪表板,可通过 QPS、延迟和错误率等指标来监视模型终结点的运行状况。
  • 特征存储集成:使用 Databricks 特征存储中的特征训练模型时,该模型将与特征元数据一起打包。 如果配置联机存储,则会在收到评分请求时实时合并这些特征。

限制

虽然此服务处于预览状态,但具有以下限制:

  • 有效负载大小限制为每个请求 16 MB。
  • 每个已注册工作区的评分请求默认限制为 200 QPS。 你可联系 Databricks 支持联系人,将此限制上调至每个工作区最多 3000 QPS。
  • 对少于 100 毫秒的延迟开销和可用性提供最佳支持。
  • 模型服务不支持初始化脚本。

无服务器实时推理终结点对入站流量 Internet 开放,除非工作区中启用了 IP 允许列表,在这种情况下,此列表也适用于终结点。

上市区域

无服务器实时推理在以下 Azure 区域中可用:

  • eastus2
  • westus
  • eastus
  • westeurope
  • centralus
  • northcentralus
  • northeurope

暂存和生产时间预期

将模型从暂存转换为生产需要时间。 部署新注册的模型版本需要生成模型容器映像和预配模型终结点。 此过程可能需要 5 分钟左右。

通过在新模型部署准备就绪之前保持现有模型部署,Databricks 可实现 /staging/production 终结点的“无停机”更新。 这样做可确保不中断使用中的模型终结点。

如果模型计算花费的时间超过 60 秒,则请求将超时。如果认为模型计算需要 60 秒以上的时间,请联系 Databricks 支持联系人。

先决条件

重要

在公共预览版期间,需要联系 Databricks 支持联系人,才可在工作区上启用无服务器实时推理。

在创建无服务器实时推理终结点之前,必须在工作区上对其进行启用。 请参阅为模型服务启用无服务器实时推理终结点

在工作区上启用无服务器实时推理终结点后,需要以下权限才可创建用于模型服务的终结点:

其他资源