使用无服务器实时推理进行模型服务

重要

本文档已过时，将来可能不会更新。本内容中提及的产品、服务或技术不再受支持。
本文中的指南适用于模型服务功能（以前称为无服务器实时推理）的预览版本。 Databricks 建议将模型服务工作流迁移到正式版功能。请参阅 Azure Databricks 中的模型服务。

重要

此功能目前以公共预览版提供。

本文介绍使用 Azure Databricks 无服务器实时推理进行模型服务，包括与旧 MLflow 模型服务相比的优势和限制。

无服务器实时推理将 MLflow 机器学习模型公开为可缩放的 REST API 终结点。此功能使用无服务器计算，这意味着终结点和关联的计算资源在 Databricks 帐户中进行管理和运行。有关更多详细信息，请参阅无服务器实时推理定价页。

旧 MLflow 模型服务使用单节点群集，当前该群集在称为经典计算平面的帐户下运行。此计算平面包括虚拟网络及其关联的计算资源，例如笔记本和作业的群集、专业 SQL 仓库和经典 SQL 仓库以及经典模型服务终结点。

为何使用无服务器实时推理？

无服务器实时推理提供以下功能：

可一键启动终结点：Databricks 自动准备模型的生产就绪环境，并提供针对计算的无服务器配置选项。
高可用性和可伸缩性：无服务器实时推理旨在用于生产，可支持高达每秒 3000 次查询 (QPS)。无服务器实时推理终结点可自动纵向扩展和缩减，即终结点会根据评分请求的数量自动调整。
仪表板：使用内置的无服务器实时推理仪表板，可通过 QPS、延迟和错误率等指标来监视模型终结点的运行状况。
特征存储集成：使用 Databricks 特征存储中的特征训练模型时，该模型将与特征元数据一起打包。如果配置联机存储，则会在收到评分请求时实时合并这些特征。

虽然此服务处于预览状态，但具有以下限制：

无服务器实时推理终结点对入站流量 Internet 开放，除非工作区中启用了 IP 允许列表，在这种情况下，此列表也适用于终结点。

无服务器实时推理在以下 Azure 区域中可用：

将模型从暂存转换为生产需要时间。部署新注册的模型版本需要生成模型容器映像和预配模型终结点。此过程可能需要 5 分钟左右。

通过在新模型部署准备就绪之前保持现有模型部署，Databricks 可实现 /staging 和 /production 终结点的“无停机”更新。这样做可确保不中断使用中的模型终结点。

如果模型计算花费的时间超过 60 秒，则请求将超时。如果认为模型计算需要 60 秒以上的时间，请联系 Databricks 支持联系人。

重要

在公共预览版期间，需要联系 Databricks 支持联系人，才可在工作区上启用无服务器实时推理。

在创建无服务器实时推理终结点之前，必须在工作区上对其进行启用。请参阅为模型服务启用无服务器实时推理终结点。

在工作区上启用无服务器实时推理终结点后，需要以下权限才可创建用于模型服务的终结点：