基础模型 API 中提供的 Databricks 托管的基础模型

本文介绍 Databricks 基础模型 API 支持的最先进的开放模型。

注释

有关这些模型的区域可用性和支持的功能区域，请参阅马赛克 AI 模型服务支持的基础模型。

可以使用 Databricks 工作区中提供的按令牌付费终结点向这些模型发送查询请求。要查看需使用的模型终结点名称，请参阅基础模型使用和按令牌付费支持的模型表。

除了支持按令牌付费模式的模型外，基础模型 API 还提供预配的吞吐量模式。 Databricks 建议为生产工作负荷预配吞吐量。此模式支持模型体系结构系列的所有模型，包括按令牌付费模式支持的微调和自定义预训练模型。有关支持的体系结构列表，请参阅预配的吞吐量基础模型 API。

可以使用 AI Playground与这些支持的模型进行交互。

Google Gemini 3.1 Flash Lite

重要

请参阅 Gemini 3.1 Flash Lite 适用的模型术语。

此模型托管在全局终结点上，需要启用跨地理位置路由。

终结点名称： databricks-gemini-3-1-flash-lite

支持的输入：文本、图像

Gemini 3.1 Flash Lite 是双子座 3 系列中最快、最具成本效益的模型，由谷歌开发和训练。该模型专为大规模智能而构建，支持具有图像功能、函数调用和结构化输出的多模式输入。 Gemini 3.1 Flash Lite 针对高吞吐量、经济高效的部署进行优化。详细了解 Gemini 3.1 Flash Lite。

与其他大型语言模型一样，Gemini 3.1 Flash Lite 输出可能会省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

此终结点由 Databricks 托管，并且位于 Databricks 的安全外围之内。

Alibaba Cloud Qwen3-Embedding-0.6B

重要

Qwen3-Embedding-0.6B 模型为公共预览版。

终结点名称： databricks-qwen3-embedding-0-6b

支持的输入：文本

Qwen3-Embedding-0.6B 是一个包含约 600M 参数的紧凑文本嵌入模型，专为检索、相似性搜索、聚类分析和分类等语义任务而设计。它将文本编码为表示含义而不是表面形式的密集矢量。

该模型支持 100 多种语言（包括代码），并处理长达约 32K 个令牌的长上下文，使其适合嵌入长文档。它生成维度最高可达 1024 的可配置嵌入，并且具有指令感知功能，允许通过提示实现对特定任务的偏向。

Qwen3-Embedding-0.6B 建构在 transformer 编码器之上，专为嵌入生成而进行微调，在保持高效推理的同时优化嵌入质量。

嵌入模型在与大型语言模型（LLM）结合使用以进行检索增强生成（RAG）用例时特别有效。 Qwen3-Embedding-0.6B 可用于查找可在 LLM 上下文中使用的大量文档的相关文本片段。

Alibaba Cloud Qwen3-Next 80B A3B 指令

重要

Qwen3-Next 80B A3B 指令模型是公共预览版，仅在该 eastus2 区域可用。

有关如何启用此模型的指导，请参阅 Manage Azure Databricks 预览版。

终结点名称： databricks-qwen3-next-80b-a3b-instruct

支持的输入：文本

Qwen3-Next-80B-A3B-Instruct 是一种高效大型语言模型，针对阿里巴巴云构建和训练的指令跟踪任务进行了优化。此模型专为处理超长上下文而设计，在多步骤工作流、检索增强生成以及需要高吞吐量确定性输出的企业应用程序中表现出色。

与其他大型语言模型一样，Qwen3-Next 80B A3B 指示输出可能会省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

OpenAI GPT OSS 120B

终结点名称： databricks-gpt-oss-120b

支持的输入：文本

GPT OSS 120B 是一种最先进的推理模型，具有由 OpenAI 构建和训练的思维链和可调整推理工作水平。它是 OpenAI 的旗舰开放式重量模型，具有 128K 令牌上下文窗口。该模型是为高质量推理任务构建的。

与其他大型语言模型一样，GPT OSS 120B 输出可能省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

OpenAI GPT OSS 20B

终结点名称： databricks-gpt-oss-20b

支持的输入：文本

GPT OSS 20B 是一种由 OpenAI 构建和训练的最先进的轻型推理模型。此模型具有一个 128K 令牌上下文窗口，在实时的 copilot 和批处理推理任务中表现优异。

与其他大型语言模型一样，GPT OSS 20B 输出可能会省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

Google Gemma 3 12B

重要

请参阅适用模型术语，以了解 Gemma 3 的条款和可接受使用政策。

终结点名称： databricks-gemma-3-12b

支持的输入：文本、图像

Gemma 3 12B 是 Google 作为 Gemma 3 系列一部分开发的 120 亿参数多模式和视觉语言模型。 Gemma 3 最多具有 128K 令牌上下文，并为超过 140 种语言提供多语言支持。此模型旨在处理文本和图像输入以及生成文本输出，并针对对话用例、文本生成和图像理解任务（包括问答）进行优化。

与其他大型语言模型一样，Gemma 3 输出可能省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

Meta Llama 4 特立独行者

重要

请参阅 Llama 4 社区许可证和可接受的使用策略的适用模型条款。

终结点名称： databricks-llama-4-maverick

支持的输入：文本、图像

Llama 4 Maverick 是由 Meta 构建和训练的最先进的大型语言模型。这是 Llama 模型系列中第一个采用专家组合架构来优化计算效率的模型。 Llama 4 Maverick 支持多种语言，并针对精确的图像和文本理解用例进行优化。详细了解 Llama 4 Maverick。

与其他大型语言模型一样，Llama 4 输出可能省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

Meta Llama 3.3 70B 指令

重要

从 2024 年 12 月 11 日起，在基础模型 API 按令牌付费终结点中，Meta-Llama-3.3-70B-Instruct 取代了对 Meta-Llama-3.1-70B-Instruct 的支持。

请参阅 LLama 3.3 社区许可证和可接受的使用策略的适用模型条款。

终结点名称： databricks-meta-llama-3-3-70b-instruct

支持的输入：文本

Meta-Llama-3.3-70B-Instruct 是一种最先进的大型语言模型，其上下文为 128,000 个令牌，由 Meta 构建和训练。该模型支持多种语言，并针对对话用例进行优化。详细了解 Meta Llama 3.3。

与其他大型语言模型类似，Llama-3 的输出可能会省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

Meta Llama 3.1 405B 指令

重要

Meta-Llama-3.1-405B-Instruct 将停用，

从 2026 年 2 月 15 日开始，按令牌付费的工作负载。
从 2026 年 5 月 15 日开始，用于预配置的吞吐量任务。

有关建议的替换模型以及有关如何在弃用期间迁移的指导，请参阅 “停用”模型。

重要

将此模型与基础模型 API 的配合使用为公共预览版。如果在使用此模型时遇到终结点故障或稳定错误，请联系 Databricks 帐户团队。

请参阅适用模型条款，以获取 Llama 3.1 社区许可证和可接受的使用策略。

终结点名称： databricks-meta-llama-3-1-405b-instruct

支持的输入：文本

Meta-Llama-3.1-405B-Instruct 是最大的公开可用的尖端大型语言模型，由 Meta 构建和训练，并使用 Azure 机器学习的 AzureML 模型目录进行分发。使用此模型，客户可以解锁新功能，例如高级、多步骤推理和高质量的综合数据生成。此模型在质量方面与 GPT-4-Turbo 竞争。

与 Meta-Llama-3.1-70B-Instruct 一样，此模型具有 128,000 个令牌的上下文，并支持十种语言。它与人类对帮助和安全偏好保持一致，并针对对话用例进行优化。详细了解 Meta Llama 3.1 模型。

与其他大型语言模型类似，Llama-3.1 的输出可能会省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

Meta Llama 3.1 8B 指令

重要

请参阅 LLama 3.1 社区许可证和可接受的使用策略的适用模型条款。

终结点名称： databricks-meta-llama-3-1-8b-instruct

支持的输入：文本

Meta-Llama-3.1-8B-Instruct 是一种最先进的大型语言模型，其上下文为 128,000 个令牌，由 Meta 构建和训练。该模型支持多种语言，并针对对话用例进行优化。详细了解 Meta Llama 3.1。

人类学克劳德·海库 4.5

重要

客户负责确保其符合 Anthropic 的使用政策的条款。另请参阅 Databricks Master 云服务协议。

终结点名称： databricks-claude-haiku-4-5

支持的输入：文本、图像

克劳德·海库 4.5 是人类学最快速、最具成本效益的模型，以卓越的速度和效率提供近乎前沿的编码质量。它擅长实时、低延迟的应用程序，包括聊天助手、客户服务代理、配对编程和快速原型制作。此模型非常适合注重成本的生产部署和需要响应式 AI 协助的能动性系统。

与其他大型语言模型一样，Claude Haiku 4.5 输出可能会省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

此终结点由 Databricks 托管，并且位于 Databricks 的安全外围之内。

Anthropic Claude Sonnet 4.6

重要

客户负责确保其符合 Anthropic 的使用政策的条款。另请参阅 Databricks Master 云服务协议。

终结点名称： databricks-claude-sonnet-4-6

支持的输入：文本、图像

Claude Sonnet 4.6 是人类学最先进的混合推理模型。它提供两种模式：近乎即时的响应和扩展思维，以便基于任务的复杂性进行更深入的推理。 Claude Sonnet 4.6 专用于需要实际吞吐量和高级思维（如面向客户的代理、生产编码工作流和大规模内容生成）的应用程序。

与其他大型语言模型一样，Claude Sonnet 4.6 输出可能省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

此终结点由 Databricks 托管，并且位于 Databricks 的安全外围之内。

Anthropic Claude 小夜曲 4.5

重要

客户负责确保其符合 Anthropic 的使用政策的条款。另请参阅 Databricks Master 云服务协议。

终结点名称： databricks-claude-sonnet-4-5

支持的输入：文本、图像

Claude Sonnet 4.5 是人类学最先进的混合推理模型。它提供两种模式：近乎即时的响应和扩展思维，以便基于任务的复杂性进行更深入的推理。 Claude Sonnet 4.5 专用于需要实际吞吐量和高级思维（如面向客户的代理、生产编码工作流和大规模内容生成）的应用程序。

与其他大型语言模型一样，Claude Sonnet 4.5 输出可能省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

此终结点由 Databricks 托管，并且位于 Databricks 的安全外围之内。

人类克劳德·奥普斯 4.7

重要

客户负责确保其符合 Anthropic 的使用政策的条款。另请参阅 Databricks Master 云服务协议。

终结点名称： databricks-claude-opus-4-7

支持的输入：文本、图像

Claude Opus 4.7 是人类学最有能力的混合推理模型，提高了 Opus 系列的准确性、效率和增强的视觉功能。此模型在复杂提取和代理推理任务上提供更强大的性能，同时使用的输出令牌比前置任务少。 Claude Opus 4.7 具有 100 万个令牌上下文窗口和更高的图像分辨率支持，因此非常适合需要深入分析、文档理解和复杂的多步骤工作流的企业应用程序。

与其他大型语言模型一样，Claude Opus 4.7 输出可能会省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

此终结点由 Databricks 托管，并且位于 Databricks 的安全外围之内。

人类科洛德·奥普斯 4.6

重要

客户负责确保其符合 Anthropic 的使用政策的条款。另请参阅 Databricks Master 云服务协议。

终结点名称： databricks-claude-opus-4-6

支持的输入：文本、图像

Claude Opus 4.6 是人类学最有能力的混合推理模型，具有自适应思维功能。此模型为最苛刻的任务引入了新的最大工作量级别，高工作量设置为默认值，以实现最佳性能。 Claude Opus 4.6 擅长复杂的推理、深入分析、代码生成、研究和复杂的多步骤工作流。它具有 100 万个令牌上下文窗口，非常适合需要大量分析和综合输出的企业应用程序。

与其他大型语言模型一样，Claude Opus 4.6 输出可能会省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

此终结点由 Databricks 托管，并且位于 Databricks 的安全外围之内。

人类科洛德·奥普斯 4.5

重要

客户负责确保其符合 Anthropic 的使用政策的条款。另请参阅 Databricks Master 云服务协议。

终结点名称： databricks-claude-opus-4-5

支持的输入：文本、图像

Claude Opus 4.5 是人类学最有能力的混合推理模型，专为需要深入分析和扩展思维的最复杂任务而构建。此模型将强大的常规用途功能与高级推理相结合，擅长代码生成、研究、内容创建和复杂的多步骤代理工作流。 Claude Opus 4.5 支持具有 200K 令牌上下文窗口的文本和视觉输入，因此非常适合需要广度和深度理解的企业应用程序。

与其他大型语言模型一样，Claude Opus 4.5 输出可能会省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

此终结点由 Databricks 托管，并且位于 Databricks 的安全外围之内。

Anthropic Claude 十四行诗 4

重要

客户负责确保其符合 Anthropic 的使用政策的条款。另请参阅 Databricks Master 云服务协议。

终结点名称： databricks-claude-sonnet-4

支持的输入：文本、图像

Claude Sonnet 4 是一种最先进的混合推理模型，由人类学构建和训练。此模型提供两种模式：近乎即时的响应和扩展思维，以便基于任务的复杂性进行更深入的推理。 Claude Sonnet 4 针对代码开发、大规模内容分析和代理应用程序开发等各种任务进行了优化。

与其他大型语言模型一样，Claude Sonnet 4 输出可能省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

此终结点由 Databricks 托管，并且位于 Databricks 的安全外围之内。

人类科洛德·奥普斯 4.1

重要

客户负责确保其符合 Anthropic 的使用政策的条款。另请参阅 Databricks Master 云服务协议。

终结点名称： databricks-claude-opus-4-1

支持的输入：文本、图像

克劳德·奥普斯 4.1 是一种最先进的混合推理模型，由人类学构建和训练。这种通用大型语言模型专为企业规模的复杂推理和实际应用程序而设计。它支持文本和图像输入，其中包含 200K 令牌上下文窗口和 32K 输出令牌功能。此模型擅长代码生成、研究和内容创建和多步骤代理工作流等任务，无需持续人工干预。

与其他大型语言模型一样，Claude Opus 4.1 输出可能省略一些事实，偶尔会生成虚假信息。 Databricks 建议在准确性特别重要的情况下使用检索扩充生成（RAG）。

此终结点由 Databricks 托管，并且位于 Databricks 的安全外围之内。

GTE Large（英语版）

终结点名称： databricks-gte-large-en

支持的输入：文本

通用文本嵌入（GTE）是一个文本嵌入模型，可以将任何文本映射为一个 1024 维的嵌入向量，并且其嵌入窗口为 8192 个标记。这些向量可用于 LLM 的向量索引以及检索、分类、问答、聚类分析或语义搜索等任务。此终结点提供模型的英文版本，不会生成规范化嵌入。

嵌入模型在与大型语言模型（LLM）结合使用以进行检索增强生成（RAG）用例时特别有效。 GTE 可用于查找可在 LLM 上下文中使用的大量文档的相关文本片段。

BGE Large（英语版）

终结点名称： databricks-bge-large-en

支持的输入：文本

BAAI 通用嵌入（BGE）是一种文本嵌入模型，可以将任何文本映射到 1024 维的嵌入向量，并具有 512 字节的输入窗口。这些向量可用于 LLM 的向量索引以及检索、分类、问答、聚类分析或语义搜索等任务。此终结点提供模型的英文版本并生成规范化嵌入。

嵌入模型在与大型语言模型（LLM）结合使用以进行检索增强生成（RAG）用例时特别有效。 BGE 可用于查找可在 LLM 上下文中使用的大量文档的相关文本片段。

在 RAG 应用程序中，可以通过包括指令参数来提高检索系统的性能。 BGE 作者建议尝试使用指令 "Represent this sentence for searching relevant passages:" 以实现查询嵌入，尽管其性能影响取决于具体领域。

其他资源

反馈

此页面是否有帮助？

Last updated on 2026-05-03