使用马赛克 AI 模型服务部署模型

本文介绍马赛克 AI 模型服务，用于部署 AI 和 ML 模型的 Databricks 解决方案，用于实时提供和批处理推理。

什么是 Mosaic AI 模型模型？

马赛克 AI 模型服务提供统一的接口，用于部署、治理和查询 AI 模型进行实时和批量推理。你提供的每个模型都可用作 REST API，可以集成到 Web 或客户端应用程序中。

模型服务提供高度可用的低延迟服务来部署模型。该服务会自动纵向扩展或纵向缩减以满足需求变化，节省基础结构成本，同时优化延迟性能。此功能使用无服务器计算。有关更多详细信息，请参阅模型服务定价页。

模型服务为 CRUD 和查询任务提供统一的 REST API 和 MLflow 部署 API。此外，它还提供单个 UI 来管理所有模型及其各自的服务终结点。还可以使用 AI Functions 直接从 SQL 访问模型，以便轻松集成到分析工作流中。

AI 函数和模型服务对于批量推理场景紧密结合。可以使用任何特定于任务的 AI 函数，也可以在 ai-query 批处理推理管道中使用。如果选择使用由 Databricks 托管和管理的预预配模型，则无需自行配置提供终结点的模型。

请参阅以下指南以开始使用：

有关执行批量推理，请参阅使用 Azure Databricks AI Functions 对数据应用 AI。
有关如何在 Azure Databricks 上为自定义模型提供实时推理的介绍性教程，请参阅教程：部署和查询自定义模型。
有关如何在 Databricks 上查询基础模型以进行实时推理的入门教程，请参阅开始在 Databricks 上查询 LLM。

可以部署的模型

模型服务支持以下模型类型的实时和批处理推理：

自定义模型。这些是打包为 MLflow 格式的 Python 模型。可以在 Unity 目录或工作区模型注册表中注册它们。示例包括 scikit-learn、XGBoost、PyTorch 和 Hugging Face 转换器模型。
- 代理服务作为自定义模型受支持。请参阅为生成式 AI 应用程序部署代理（模型服务）
基础模型。
- 由 Databricks 托管的基础模型，例如 Meta Llama。可以使用基础模型 API使用这些模型。这些模型是支持优化推理的特选基础模型体系结构。可通过“按令牌付费”定价立即使用基本模型（如 Meta-Llama-3.3-70B-Instruct、GTE-Large 和 Mistral-7B），而需要性能保证和微调模型变体的工作负载可以使用“预配的吞吐量”进行部署。
- 在 Databricks 之外托管的基础模型，如 OpenAI 的 GPT-4。可以使用外部模型访问这些模型。可从 Azure Databricks 集中治理为这些模型提供服务的终端，从而可以简化在组织中各种 LLM 提供商（如 OpenAI 和 Anthropic）的使用和管理。

备注

可以使用 AI 操场与受支持的大语言模型进行交互。 AI 操场是一种类似聊天的环境，可在其中测试、提示和比较 LLM。此功能在 Azure Databricks 工作区中可用。

为什么使用模型服务？

部署和查询任何模型：模型服务提供统一接口，以便你管理一个位置中的所有模型，并使用单个 API 对其进行查询，无论它们是托管在 Databricks 上还是外部。此方法简化了跨各种云和提供商在生产环境中试验、自定义和部署模型的过程。
使用专用数据安全地自定义模型：模型服务基于 Data Intelligence 平台构建，通过与 Databricks 功能存储和 Mosaic AI 矢量搜索的本机集成简化了功能集成和嵌入模型。为了提高准确性和上下文理解，可以使用专有数据对模型进行微调，并在模型服务上毫不费力地部署模型。
治理和监视模型：可以通过服务 UI 在一个位置集中管理所有模型终结点，包括外部托管的终结点。可以使用 AI 网关来管理权限、跟踪和设置使用限制并监视所有类型的模型的质量。这使您能够在您的组织中普及对 SaaS 和开放 LLM 的访问，同时确保实施适当的防护措施。
通过优化的推理和快速缩放来降低成本：Databricks 实现了一系列优化，以确保为大型模型获得最佳吞吐量和延迟。该终结点会自动纵向扩展或纵向缩减以满足需求变化，节省基础结构成本，同时优化延迟性能。监控模型服务成本。
- 对于延迟敏感或涉及每秒大量查询的工作负荷，请参阅 “优化模型服务终结点”以获取全面的优化策略。请联系 Databricks 帐户团队，确保你的工作区具有高可伸缩性。

为模型服务带来可靠性和安全性：模型服务专为高可用性、低延迟的生产使用而设计，每秒可支持超过 25K 个查询，开销延迟小于 50 毫秒。服务工作负荷受多层安全保护，确保为最敏感的任务提供安全可靠的环境。可以通过配置网络策略来控制对模型服务终结点的网络访问。请参阅管理无服务器出口控制的网络策略。

备注

由于生产部署存在不稳定的风险，模型服务不提供现有模型映像的安全修补程序。从新模型版本创建的新模型镜像将包含最新的补丁。有关详细信息，请联系 Databricks 帐户团队。

要求

Unity 目录或工作区模型注册表中的已注册模型。
对已注册模型的权限如服务端点 ACL中所述。
- MLflow 1.29 或更高版本。
如果使用 Azure 专用链接来遵守工作区上配置的与网络相关的入口规则，则仅支持使用预配吞吐量的终结点或提供自定义模型的终结点的模型专用链接。请参阅配置与 Azure 资源的专用连接。
工作区权限已配置。请参阅管理权限。

为工作区启用模型服务

无需执行其他步骤即可在工作区中启用模型服务。

限制和地区可用性

Mosaic AI 模型服务施加了默认限制，以确保可靠的性能。请参阅模型服务限制和区域。如需对这些限制或不受支持区域中的端点进行反馈，请联系 Databricks 帐户团队。

模型服务中的数据保护

Databricks 非常重视数据安全。 Databricks 了解你使用 Mosaic AI 模型服务进行分析的数据的重要性，并实施以下安全控制来保护你的数据。

客户对模型服务发出的每个请求都经过逻辑隔离、身份验证和授权。
Mosaic AI 模型服务会加密所有静态数据 (AES-256) 和传输中数据 (TLS 1.2+)。

对于所有付费帐户，Mosaic AI 模型服务不会使用提交给服务的用户输入或服务的输出来训练任何模型或改进任何 Databrickss 服务。

对于所有马赛克 AI 模型服务工作负载，Databricks 将容器生成日志保留最多 30 天（30 天），指标数据最多保留 14 天（14 天）。

对于 Databricks 基础模型 API，在提供服务的过程中，Databricks 可能会暂时处理和存储输入和输出，以防止、检测和缓解滥用或有害使用。你的输入和输出与其他客户的输入和输出相隔离，在与你的工作区相同的区域中存储最多三十 (30) 天，并且只能用于检测和响应安全或滥用问题。

基础模型 API 是 Databricks 指定服务，这意味着它遵循由 Databricks Geos 实现的数据驻留边界。

其他资源

反馈

此页面是否有帮助？

Last updated on 2026-02-14

通过

使用马赛克 AI 模型服务部署模型

什么是 Mosaic AI 模型模型？

可以部署的模型

为什么使用模型服务？

要求

为工作区启用模型服务

限制和地区可用性

模型服务中的数据保护

其他资源

反馈

其他资源