Databricks 基础模型 API

项目
07/25/2024

本文概述了 Azure Databricks 中的基础模型 API。内容包括使用要求、支持的模型和限制。

什么是 Databricks 基础模型 API？

Mosaic AI 模型服务现在支持基础模型 API，使你可以从服务终结点访问和查询最先进的开放模型。借助基础模型 API，可快速轻松地构建利用高质量生成式 AI 模型的应用程序，而无需维护自己的模型部署。

基础模型 API 有两种定价模式：

按令牌付费：这是开始访问 Databricks 基础模型的最简单方法，建议使用基础模型 API 开始你的历程。此模式不适用于高吞吐量应用程序或高性能生产工作负载。
预配的吞吐量：建议将此模式用于所有生产工作负载，尤其是需要高吞吐量、性能保证、微调模型或具有额外安全要求的工作负载。预配的吞吐量终结点具有 HIPAA 等合规性认证。

有关如何使用这两种模式的指导以及支持的模型，请参阅使用基础模型 API。

使用基础模型 API，可以：

在投入更多资源之前，查询通用 LLM 以验证项目的有效性。
在投资训练和部署自定义模型之前，查询通用 LLM，以便为基于 LLM 的应用程序创建快速概念验证。
使用基础模型和矢量数据库，通过检索增强生成 (RAG) 生成聊天机器人。
将专有模型替换为开放替代项，以优化成本和性能。
有效地比较 LLM，看看哪一个最适合你的用例，或者将生产模型替换为性能更好的模型。
基于可缩放、支持 SLA 和生产流量峰值的 LLM 服务解决方案构建用于开发或生产的 LLM 应用程序。

要求

用于对终结点请求进行身份验证的 Databricks API 令牌。
无服务器计算（用于预配的吞吐量模型）。
受支持区域中的工作区：
- 按令牌付费区域。
- 预配吞吐量区域。

注意

对于使用 DBRX Base 模型的预配吞吐量工作负载，请参阅基础模型 API 限制以了解区域可用性。

使用基础模型 API

有多个选项可用于使用基础模型 API。

API 与 OpenAI 兼容，因此甚至可以使用 OpenAI 客户端进行查询。还可以使用 UI、基础模型 API Python SDK、MLflow 部署 SDK 或 REST API 来查询支持的模型。 Databricks 建议使用 MLflow 部署 SDK 或 REST API 进行扩展交互，并使用 UI 来试用该功能。

有关评分示例，请参阅查询基础模型和外部模型。

按令牌付费的基础模型 API

重要

此功能目前以公共预览版提供。

可在 Azure Databricks 工作区中访问按令牌付费模型，建议使用它们实现入门。若要在工作区中访问它们，请导航到左侧栏中的“服务”选项卡。基础模型 API 位于终结点列表视图的顶部。

服务终结点列表

下表汇总了按令牌付费支持的模型。有关其他模型信息，请参阅按令牌付费支持的模型。

如果要测试这些模型并与之聊天，可以使用 AI 操场来实现。请参阅使用 AI 操场与支持的模型 LLM 聊天。

重要

从 2024 年 7 月 23 日起，Meta-Llama-3.1-70B-Instruct 支持将基于区域计算可用性提供，并将取代对基础模型 API 的按令牌付费终结点中 Meta-Llama-3-70B-Instruct 的支持（如果有）。如果你所在的区域不提供 Meta-Llama-3.1-70B-Instruct，则可以继续使用 Meta-Llama-3-70B-Instruct。
Meta-Llama-3.1-405B-Instruct 是最大的开放可用的先进大型语言模型，由 Meta 构建和训练，由 Azure 机器学习通过 AzureML 模型目录分发
Llama 2 70B 聊天模型计划将停用。在 2024 年 10 月 30 日之后，将不再支持此模型。
计划停用 MPT 7B Instruct 和 MPT 30B Instruct 模型。在 2024 年 8 月 30 日之后，将不再支持这些模型。

模型	任务类型	终结点
DBRX Instruct	聊天	`databricks-dbrx-instruct`
Meta-Llama-3.1-405B-Instruct	聊天	`databricks-meta-llama-3.1-405b-instruct`
Meta-Llama-3.1-70B-Instruct	聊天	`databricks-meta-llama-3.1-70b-instruct`
Meta-Llama-3-70B-Instruct	聊天	`databricks-meta-llama-3-70b-instruct`
Meta-Llama-2-70B-Chat	聊天	`databricks-llama-2-70b-chat`
Mixtral-8x7B Instruct	聊天	`databricks-mixtral-8x7b-instruct`
MPT 7B Instruct	完成	`databricks-mpt-7b-instruct`
MPT 30B Instruct	完成	`databricks-mpt-30b-instruct`
GTE Large（英语）	嵌入	`databricks-gte-large-en`
BGE Large（英语）	嵌入	`databricks-bge-large-en`

有关如何查询基础模型 API 的指导，请参阅查询基础模型和外部模型。
有关所需参数和语法，请参阅基础模型 REST API 参考。

预配的吞吐量基础模型 API

“预配吞吐量”已正式发布，Databricks 建议为生产工作负载使用“预配吞吐量”。 “预配吞吐量”为终结点提供了优化的推理，可用于需要性能保证的基础模型工作负载。有关如何在预配吞吐量模式下部署基础模型 API 的分步指南，请参阅预配吞吐量基础模型 API。

预配的吞吐量支持包括：

各种大小的基础模型，如 DBRX Base。可以使用 Databricks 市场访问基本模型，也可以从 Hugging Face 或其他外部源下载这些模型，并将其注册到 Unity 目录中。后一种方法适用于受支持模型的任何微调变体，与所采用的微调方法无关。
基础模型的微调变体，例如 LlamaGuard-7B。这包括根据专有数据进行微调的模型。
完全自定义权重和 tokenizer，例如从头开始训练或持续预训练的权重和 tokenizer，或使用基础模型体系结构的其他变体（例如 CodeLlama、Yi-34B-Chat 或 SOLAR-10.7B）。

下表汇总了预配吞吐量支持的模型体系结构。

模型体系结构	任务类型	说明
DBRX	聊天或补全	请参阅基础模型 API 限制，了解区域可用性。
Metal Llama 3.1	聊天或补全
Meta Llama 3	聊天或补全
Meta Llama 2	聊天或补全
Mistral	聊天或补全
Mixtral	聊天或补全
MPT	聊天或补全
BGE v1.5（英语）	嵌入

限制

请参阅模型服务限制和区域。

通过