Databricks 基础模型 API

2025-05-20

本文概述了 Azure Databricks 上的基础模型 API。它包括使用要求、支持的模型和限制。

什么是 Databricks Foundation 模型 API？

马赛克 AI 模型服务现在支持基础模型 API，使你能够从服务终结点访问和查询最先进的开放模型。这些模型由 Databricks 托管，你可以快速轻松地生成使用这些模型的应用程序，而无需维护自己的模型部署。基础模型 API 是 Databricks 指定服务，这意味着它在处理客户内容时使用 Databricks 地理来管理数据驻留。

基础模型 API 在以下模式下提供：

按令牌付费：这是开始在 Databricks 上访问基础模型的最简单方法，建议使用基础模型 API 开始旅程。此模式不适用于高吞吐量应用程序或高性能生产工作负荷。
预配的吞吐量：建议对所有生产工作负荷使用此模式，尤其是那些需要高吞吐量、性能保证、微调模型或具有其他安全要求的工作负荷。预配的吞吐量终结点可通过 HIPAA 等合规性认证获得。
AI Functions 优化模型：建议对批量推理工作负荷使用此模式。可以选择使用任何生成 AI 或 ML 模型通过 AI 函数运行批处理推理。

有关如何使用这些模式和支持的模型的指导，请参阅使用基础模型 API。

使用基础模型 API 可以执行以下作：

在投入更多资源之前，查询通用 LLM 以验证项目的有效性。
在投资训练和部署自定义模型之前，查询通用 LLM 以创建基于 LLM 的应用程序的快速概念证明。
使用基础模型以及矢量索引，使用检索扩充生成（RAG）生成聊天机器人。
将专有模型替换为开放替代方案，以优化成本和性能。
有效地比较 LLM，了解最适合用例的候选项，或者将生产模型替换为性能更好的模型。
在具备服务等级协议（SLA）支持的可扩展 LLM 服务解决方案的基础上，构建用于开发或生产的 LLM 应用程序，以应对生产流量高峰。

要求

Databricks API 令牌，用于对终结点请求进行身份验证。
无服务器计算（对于预配的吞吐量模型）。
位于以下受支持区域之一的工作区：
- 按令牌付费区域。
- 预配的吞吐量区域。

使用基础模型 API

有多个选项可用于使用基础模型 API。

API 与 OpenAI 兼容，因此可以使用 OpenAI 客户端进行查询。还可以使用 UI、基础模型 API Python SDK、MLflow 部署 SDK 或 REST API 来查询支持的模型。 Databricks 建议使用 OpenAI 客户端 SDK 或 API 进行扩展交互，使用 UI 来试用该功能。

请参阅 “使用基础模型 ”获取评分示例。

按令牌付费的基础模型 API

可在 Azure Databricks 工作区中访问支持按令牌支付模型的预配置终结点。建议使用这些按令牌付费的模型以入门。若要在工作区中访问它们，请导航到左侧边栏中的“服务”选项卡。基础模型 API 位于终结点列表视图的顶部。

服务终结点列表

支持按令牌付费的模型。
有关如何查询基础模型 API 的指导，请参阅 “使用基础模型 ”。
有关所需参数和语法，请参阅基础模型 REST API 参考。

预配吞吐量基础模型 API

“预配吞吐量”为终结点提供了优化的推理，可用于需要性能保证的基础模型工作负荷。 Databricks 建议为生产工作负荷预配吞吐量。

预配的吞吐量支持的模型体系结构。
有关如何在预配吞吐量模式下部署基础模型 API 的分步指南，请参阅预配吞吐量基础模型 API。

预配的吞吐量支持包括：

所有大小的基础模型。可以使用 Databricks 市场访问基本模型，也可以从 Hugging Face 或其他外部源下载这些模型，并将其注册到 Unity 目录中。后一种方法适用于支持模型的任何微调变体。
基础模型的微调变体，例如对专有数据进行微调的模型。
完全自定义权重和 tokenizer，例如从头开始训练或持续预训练的权重和 tokenizer，或使用基础模型体系结构的其他变体（例如 CodeLlama）。

用于批处理推理的 AI 函数

请参阅使用 Azure Databricks AI Functions 将 AI 应用于数据。

有关如何使用 AI Functions 创建批处理推理管道，请参阅使用 AI Functions 执行批处理 LLM 推理。

局限性

请参阅基础模型 API 限制。