Databricks 基础模型 API

本文概述了 Azure Databricks 中的基础模型 API。 内容包括使用要求、支持的模型和限制。

什么是 Databricks 基础模型 API?

Mosaic AI 模型服务现在支持基础模型 API,使你可以从服务终结点访问和查询最先进的开放模型。 借助基础模型 API,可快速轻松地构建利用高质量生成式 AI 模型的应用程序,而无需维护自己的模型部署。

基础模型 API 有两种定价模式:

  • 按令牌付费:这是开始访问 Databricks 基础模型的最简单方法,建议使用基础模型 API 开始你的历程。 此模式不适用于高吞吐量应用程序或高性能生产工作负载。
  • 预配的吞吐量:建议将此模式用于所有生产工作负载,尤其是需要高吞吐量、性能保证、微调模型或具有额外安全要求的工作负载。 预配的吞吐量终结点具有 HIPAA 等合规性认证。

有关如何使用这两种模式的指导以及支持的模型,请参阅使用基础模型 API

使用基础模型 API,可以:

  • 在投入更多资源之前,查询通用 LLM 以验证项目的有效性。
  • 在投资训练和部署自定义模型之前,查询通用 LLM,以便为基于 LLM 的应用程序创建快速概念验证。
  • 使用基础模型和矢量数据库,通过检索增强生成 (RAG) 生成聊天机器人。
  • 将专有模型替换为开放替代项,以优化成本和性能。
  • 有效地比较 LLM,看看哪一个最适合你的用例,或者将生产模型替换为性能更好的模型。
  • 基于可缩放、支持 SLA 和生产流量峰值的 LLM 服务解决方案构建用于开发或生产的 LLM 应用程序。

要求

  • 用于对终结点请求进行身份验证的 Databricks API 令牌。
  • 无服务器计算(用于预配的吞吐量模型)。
  • 受支持区域中的工作区:

注意

对于使用 DBRX Base 模型的预配吞吐量工作负载,请参阅基础模型 API 限制以了解区域可用性。

使用基础模型 API

有多个选项可用于使用基础模型 API。

API 与 OpenAI 兼容,因此甚至可以使用 OpenAI 客户端进行查询。 还可以使用 UI、基础模型 API Python SDK、MLflow 部署 SDK 或 REST API 来查询支持的模型。 Databricks 建议使用 MLflow 部署 SDK 或 REST API 进行扩展交互,并使用 UI 来试用该功能。

有关评分示例,请参阅查询基础模型和外部模型

按令牌付费的基础模型 API

重要

此功能目前以公共预览版提供。

可在 Azure Databricks 工作区中访问按令牌付费模型,建议使用它们实现入门。 若要在工作区中访问它们,请导航到左侧栏中的“服务”选项卡。 基础模型 API 位于终结点列表视图的顶部。

服务终结点列表

下表汇总了按令牌付费支持的模型。 有关其他模型信息,请参阅按令牌付费支持的模型

如果要测试这些模型并与之聊天,可以使用 AI 操场来实现。 请参阅使用 AI 操场与支持的模型 LLM 聊天

重要

  • 从 2024 年 7 月 23 日起,Meta-Llama-3.1-70B-Instruct 支持将基于区域计算可用性提供,并将取代对基础模型 API 的按令牌付费终结点中 Meta-Llama-3-70B-Instruct 的支持(如果有)。 如果你所在的区域不提供 Meta-Llama-3.1-70B-Instruct,则可以继续使用 Meta-Llama-3-70B-Instruct。
  • Meta-Llama-3.1-405B-Instruct 是最大的开放可用的先进大型语言模型,由 Meta 构建和训练,由 Azure 机器学习通过 AzureML 模型目录分发
  • Llama 2 70B 聊天模型计划将停用。 在 2024 年 10 月 30 日之后,将不再支持此模型。
  • 计划停用 MPT 7B Instruct 和 MPT 30B Instruct 模型。 在 2024 年 8 月 30 日之后,将不再支持这些模型。
模型 任务类型 终结点
DBRX Instruct 聊天 databricks-dbrx-instruct
Meta-Llama-3.1-405B-Instruct 聊天 databricks-meta-llama-3.1-405b-instruct
Meta-Llama-3.1-70B-Instruct 聊天 databricks-meta-llama-3.1-70b-instruct
Meta-Llama-3-70B-Instruct 聊天 databricks-meta-llama-3-70b-instruct
Meta-Llama-2-70B-Chat 聊天 databricks-llama-2-70b-chat
Mixtral-8x7B Instruct 聊天 databricks-mixtral-8x7b-instruct
MPT 7B Instruct 完成 databricks-mpt-7b-instruct
MPT 30B Instruct 完成 databricks-mpt-30b-instruct
GTE Large(英语) 嵌入 databricks-gte-large-en
BGE Large(英语) 嵌入 databricks-bge-large-en

预配的吞吐量基础模型 API

“预配吞吐量”已正式发布,Databricks 建议为生产工作负载使用“预配吞吐量”。 “预配吞吐量”为终结点提供了优化的推理,可用于需要性能保证的基础模型工作负载。 有关如何在预配吞吐量模式下部署基础模型 API 的分步指南,请参阅预配吞吐量基础模型 API

预配的吞吐量支持包括:

  • 各种大小的基础模型,如 DBRX Base。 可以使用 Databricks 市场访问基本模型,也可以从 Hugging Face 或其他外部源下载这些模型,并将其注册到 Unity 目录中。 后一种方法适用于受支持模型的任何微调变体,与所采用的微调方法无关。
  • 基础模型的微调变体,例如 LlamaGuard-7B。 这包括根据专有数据进行微调的模型。
  • 完全自定义权重和 tokenizer,例如从头开始训练或持续预训练的权重和 tokenizer,或使用基础模型体系结构的其他变体(例如 CodeLlama、Yi-34B-Chat 或 SOLAR-10.7B)

下表汇总了预配吞吐量支持的模型体系结构。

模型体系结构 任务类型 说明
DBRX 聊天或补全 请参阅基础模型 API 限制,了解区域可用性。
Metal Llama 3.1 聊天或补全
Meta Llama 3 聊天或补全
Meta Llama 2 聊天或补全
Mistral 聊天或补全
Mixtral 聊天或补全
MPT 聊天或补全
BGE v1.5(英语) 嵌入

限制

请参阅模型服务限制和区域

其他资源