按令牌付费支持的模型

重要

只有 GTE Large(英语版)和 Meta Llama 3.3 70B Instruct 模型在按令牌付费的欧盟和美国支持的区域可用

请参阅 基础模型 API 限制,了解仅在美国区域支持的按令牌付费模型。

本文介绍 Databricks Foundation 模型 API 按令牌付费模式支持的最先进的开放模型。

可以使用 Databricks 工作区中提供的按令牌付费终结点向这些模型发送查询请求。 有关要使用的模型终结点的名称,请参阅查询基础模型按令牌付费支持的模型表

除了支持按令牌付费模式的模型外,基础模型 API 还提供预配的吞吐量模式。 Databricks 建议为生产工作负荷预配吞吐量。 此模式支持模型体系结构系列(例如 DBRX 模型)的所有模型,包括按令牌付费模式支持的微调和自定义预训练模型。 有关支持的体系结构列表,请参阅 预配的吞吐量基础模型 API

可以使用 AI Playground与这些支持的模型进行交互。

Meta Llama 3.3 70B Instruct

重要

自 2024 年 12 月 11 日起,Meta-Llama-3.3-70B-Instruct 将在基础模型 API 的按令牌付费终结点中取代对 Meta-Llama-3.1-70B-Instruct 的支持。

重要

Meta Llama 3.3 已经由 LLAMA 3.3 社区许可完成授权,版权所有 © Meta Platforms, Inc.保留所有权利。 客户负责确保其遵守此许可证的条款和 Llama 3.3 可接受的使用策略

Meta-Llama-3.3-70B-Instruct 是一种最先进的大型语言模型,其上下文为 128,000 个令牌,由 Meta 构建和训练。 该模型支持多种语言,并针对对话用例进行优化。 详细了解 Meta Llama 3.3

与其他大型语言模型类似,Llama-3 的输出可能会省略一些事实,偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成(RAG)。

Meta Llama 3.1 405B Instruct

重要

将此模型与基础模型 API 的配合使用为公共预览版。 如果在使用此模型时遇到终结点故障或稳定错误,请联系 Databricks 帐户团队。

重要

Meta Llama 3.1 已经由 LLAMA 3.1 社区许可完成授权,版权所有 © Meta Platforms, Inc.保留所有权利。 客户需负责确保遵守适用的模型许可证。

Meta-Llama-3.1-405B-Instruct 是最大的公开可用的大型语言模型,由 Meta 构建和训练,由 Azure 机器学习使用 AzureML 模型目录分发。 使用此模型,客户可以解锁新功能,例如高级、多步骤推理和 高质量的综合数据生成。 此模型在质量方面与 GPT-4-Turbo 竞争。

与 Meta-Llama-3.1-70B-Instruct 一样,此模型具有 128,000 个令牌的上下文,并支持十种语言。 它与人类对帮助和安全偏好保持一致,并针对对话用例进行优化。 详细了解 Meta Llama 3.1 模型

与其他大型语言模型类似,Llama-3.1 的输出可能会省略一些事实,偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成(RAG)。

DBRX Instruct

重要

2025 年 4 月 30 日之后不再支持此模型。 关于推荐的模型替换,请参阅停用的模型

重要

DBRX 根据 Databricks 开放模型许可证提供并受其约束,版权所有 © Databricks, Inc.保留所有权利。 客户负责确保遵守适用的模型许可证,包括 Databricks 可接受使用政策

DBRX Instruct 是由 Databricks 训练的先进的混合专家 (MoE) 语言模型。

该模型优于在标准基准上建立的开源模型,并且擅长一组广泛的自然语言任务,例如:文本摘要、问答、提取和编码。

DBRX 指令最多可以处理 32k 个输入长度的令牌,并生成最多 4k 个令牌的输出。 由于其 MoE 架构,DBRX Instruct 在推理方面非常高效,仅激活总共1320亿个训练参数中的360亿个参数。 为此模型提供服务的按令牌付费终结点的速率限制为每秒一个查询。 请参阅 模型服务限制和区域

与其他大型语言模型类似,DBRX 指示输出可能会省略某些事实,偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成(RAG)。

DBRX 模型使用以下默认系统提示来确保模型响应的相关性和准确性:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Mixtral-8x7B Instruct

重要

2025 年 4 月 30 日之后不再支持此模型。 关于推荐的模型替换,请参阅停用的模型

Mixtral-8x7B Instruct 是由 Mistral AI 训练的高质量的稀疏专家混合模型 (SMoE)。 Mixtral-8x7B Instruct 可以用于各种任务,例如问答、总结和提取。

Mixtral 可以处理长度最多为32k个标记的上下文。 Mixtral 可以处理英语、法语、意大利语、德语和西班牙语。 Mixtral 在大多数基准(Mixtral 性能)上匹配或优于 Llama 2 70B 和 GPT3.5,而在推理期间比 Llama 70B 快四倍。

与其他大型语言模型类似,Mixtral-8x7B 指令模型不应依赖于生成事实准确的信息。 尽管已大力清理预训练数据,但此模型可能会生成猥亵、偏见或其他冒犯性输出。 为了降低风险,Databricks 默认使用 Mistral 安全模式系统提示的变体。

GTE Large(英语版)

重要

GTE Large(En)根据 Apache 2.0 许可证提供,版权 © 阿帕奇软件基金会,保留所有权利。 客户负责确保遵守适用的模型许可证要求。

通用文本嵌入(GTE) 是一个文本嵌入模型,可以将任何文本映射为一个 1024 维的嵌入向量,并且其嵌入窗口为 8192 个标记。 这些向量可用于 LLM 的向量数据库中,以及检索、分类、问答、聚类分析或语义搜索等任务。 此终结点提供模型的英文版本,不会生成规范化嵌入。

嵌入模型在与大型语言模型(LLM)结合使用以进行检索增强生成(RAG)用例时特别有效。 GTE 可用于查找可在 LLM 上下文中使用的大量文档的相关文本片段。

BGE Large(英语版)

BAAI 通用嵌入(BGE) 是一种文本嵌入模型,可以将任何文本映射到 1024 维的嵌入向量,并具有 512 字节的输入窗口。 这些向量可用于 LLM 的向量数据库中,以及检索、分类、问答、聚类分析或语义搜索等任务。 此终结点提供模型的英文版本并生成规范化嵌入。

嵌入模型在与大型语言模型(LLM)结合使用时,特别适用于检索增强生成(RAG)的应用场景。 BGE 可用于查找可在 LLM 上下文中使用的大量文档的相关文本片段。

在 RAG 应用程序中,可以通过包括指令参数来提高检索系统的性能。 BGE 作者建议尝试使用指令 "Represent this sentence for searching relevant passages:" 以实现查询嵌入,尽管其性能影响取决于具体领域。

其他资源