Databricks 基础模型 API
本文概述了 Azure Databricks 中的基础模型 API。 内容包括使用要求、支持的模型和限制。
什么是 Databricks 基础模型 API?
Mosaic AI 模型服务现在支持基础模型 API,使你可以从服务终结点访问和查询最先进的开放模型。 借助基础模型 API,可快速轻松地构建利用高质量生成式 AI 模型的应用程序,而无需维护自己的模型部署。
基础模型 API 有两种定价模式:
- 按令牌付费:这是开始访问 Databricks 基础模型的最简单方法,建议使用基础模型 API 开始你的历程。 此模式不适用于高吞吐量应用程序或高性能生产工作负载。
- 预配的吞吐量:建议将此模式用于所有生产工作负载,尤其是需要高吞吐量、性能保证、微调模型或具有额外安全要求的工作负载。 预配的吞吐量终结点具有 HIPAA 等合规性认证。
有关如何使用这两种模式的指导以及支持的模型,请参阅使用基础模型 API。
使用基础模型 API,可以:
- 在投入更多资源之前,查询通用 LLM 以验证项目的有效性。
- 在投资训练和部署自定义模型之前,查询通用 LLM,以便为基于 LLM 的应用程序创建快速概念验证。
- 使用基础模型和矢量数据库,通过检索增强生成 (RAG) 生成聊天机器人。
- 将专有模型替换为开放替代项,以优化成本和性能。
- 有效地比较 LLM,看看哪一个最适合你的用例,或者将生产模型替换为性能更好的模型。
- 基于可缩放、支持 SLA 和生产流量峰值的 LLM 服务解决方案构建用于开发或生产的 LLM 应用程序。
要求
注意
对于使用 DBRX Base 模型的预配吞吐量工作负载,请参阅基础模型 API 限制以了解区域可用性。
使用基础模型 API
有多个选项可用于使用基础模型 API。
API 与 OpenAI 兼容,因此甚至可以使用 OpenAI 客户端进行查询。 还可以使用 UI、基础模型 API Python SDK、MLflow 部署 SDK 或 REST API 来查询支持的模型。 Databricks 建议使用 MLflow 部署 SDK 或 REST API 进行扩展交互,并使用 UI 来试用该功能。
有关评分示例,请参阅查询基础模型和外部模型。
按令牌付费的基础模型 API
重要
此功能目前以公共预览版提供。
可在 Azure Databricks 工作区中访问按令牌付费模型,建议使用它们实现入门。 若要在工作区中访问它们,请导航到左侧栏中的“服务”选项卡。 基础模型 API 位于终结点列表视图的顶部。
下表汇总了按令牌付费支持的模型。 有关其他模型信息,请参阅按令牌付费支持的模型。
如果要测试这些模型并与之聊天,可以使用 AI 操场来实现。 请参阅使用 AI 操场与支持的模型 LLM 聊天。
重要
- 从 2024 年 7 月 23 日起,Meta-Llama-3.1-70B-Instruct 支持将基于区域计算可用性提供,并将取代对基础模型 API 的按令牌付费终结点中 Meta-Llama-3-70B-Instruct 的支持(如果有)。 如果你所在的区域不提供 Meta-Llama-3.1-70B-Instruct,则可以继续使用 Meta-Llama-3-70B-Instruct。
- Meta-Llama-3.1-405B-Instruct 是最大的开放可用的先进大型语言模型,由 Meta 构建和训练,由 Azure 机器学习通过 AzureML 模型目录分发
- Llama 2 70B 聊天模型计划将停用。 在 2024 年 10 月 30 日之后,将不再支持此模型。
- 计划停用 MPT 7B Instruct 和 MPT 30B Instruct 模型。 在 2024 年 8 月 30 日之后,将不再支持这些模型。
模型 | 任务类型 | 终结点 |
---|---|---|
DBRX Instruct | 聊天 | databricks-dbrx-instruct |
Meta-Llama-3.1-405B-Instruct | 聊天 | databricks-meta-llama-3.1-405b-instruct |
Meta-Llama-3.1-70B-Instruct | 聊天 | databricks-meta-llama-3.1-70b-instruct |
Meta-Llama-3-70B-Instruct | 聊天 | databricks-meta-llama-3-70b-instruct |
Meta-Llama-2-70B-Chat | 聊天 | databricks-llama-2-70b-chat |
Mixtral-8x7B Instruct | 聊天 | databricks-mixtral-8x7b-instruct |
MPT 7B Instruct | 完成 | databricks-mpt-7b-instruct |
MPT 30B Instruct | 完成 | databricks-mpt-30b-instruct |
GTE Large(英语) | 嵌入 | databricks-gte-large-en |
BGE Large(英语) | 嵌入 | databricks-bge-large-en |
- 有关如何查询基础模型 API 的指导,请参阅查询基础模型和外部模型。
- 有关所需参数和语法,请参阅基础模型 REST API 参考。
预配的吞吐量基础模型 API
“预配吞吐量”已正式发布,Databricks 建议为生产工作负载使用“预配吞吐量”。 “预配吞吐量”为终结点提供了优化的推理,可用于需要性能保证的基础模型工作负载。 有关如何在预配吞吐量模式下部署基础模型 API 的分步指南,请参阅预配吞吐量基础模型 API。
预配的吞吐量支持包括:
- 各种大小的基础模型,如 DBRX Base。 可以使用 Databricks 市场访问基本模型,也可以从 Hugging Face 或其他外部源下载这些模型,并将其注册到 Unity 目录中。 后一种方法适用于受支持模型的任何微调变体,与所采用的微调方法无关。
- 基础模型的微调变体,例如 LlamaGuard-7B。 这包括根据专有数据进行微调的模型。
- 完全自定义权重和 tokenizer,例如从头开始训练或持续预训练的权重和 tokenizer,或使用基础模型体系结构的其他变体(例如 CodeLlama、Yi-34B-Chat 或 SOLAR-10.7B)。
下表汇总了预配吞吐量支持的模型体系结构。
模型体系结构 | 任务类型 | 说明 |
---|---|---|
DBRX | 聊天或补全 | 请参阅基础模型 API 限制,了解区域可用性。 |
Metal Llama 3.1 | 聊天或补全 | |
Meta Llama 3 | 聊天或补全 | |
Meta Llama 2 | 聊天或补全 | |
Mistral | 聊天或补全 | |
Mixtral | 聊天或补全 | |
MPT | 聊天或补全 | |
BGE v1.5(英语) | 嵌入 |
限制
请参阅模型服务限制和区域。
其他资源
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈