你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 模型目录的特色模型

Azure AI 模型目录提供来自各种提供商的大量模型。 您有多种选项可以从模型目录中部署模型。 本文列出了模型目录中的特色模型,这些模型可以通过标准部署在Microsoft的服务器上部署和托管。 对于其中一些模型,还可以在基础结构上托管这些模型,以便通过托管计算进行部署。 请参阅 支持的部署选项 的可用模型,以在目录中查找可通过托管计算或标准部署进行部署的模型。

要对模型执行推断,某些模型(如 Nixtla 的 TimeGEN-1Cohere rerank)需要使用模型提供者的自定义 API。 其他支持使用 Azure AI 模型推理进行推理。 可以通过查看 Azure AI 模型目录中的模型卡来查找有关各个模型的更多详细信息。

显示 Azure AI Foundry 模型目录部分和可用模型的动画。

AI21 实验室

Jamba 家族模型是 AI21 基于 Mamba 的商用级大型语言模型 (LLM),它使用 AI21 自己的混合 Mamba-Transformer 架构。 它是 AI21 混合结构化状态空间模型 (SSM) 转换器 Jamba 模型经过了指令优化的版本。 Jamba 系列模型专用于可靠的商业用途,可提供出色的质量和性能。

型号 类型 能力
AI21-Jamba-1.5-Mini 聊天完成 - 输入:文本(262,144 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
AI21-Jamba-1.5-Large 聊天完成 - 输入:文本(262,144 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出

请参阅 Azure AI 模型目录中的此模型集合

Azure OpenAI

Azure AI Foundry Models 中的 Azure OpenAI 提供了一组具有不同功能和价位的不同模型。 这些模型包括:

  • 为处理推理任务和问题解决任务设计的最先进的模型,具有更好的针对性和功能
  • 可以理解和生成自然语言和代码的模型
  • 可以将语音听录和翻译为文本的模型
型号 类型 能力
o3-mini 聊天完成 - 输入:文本和图像(200,000 个标记)
- 输出:文本(100,000 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
o1 聊天完成(包含图像) - 输入:文本和图像(200,000 个标记)
- 输出:文本(100,000 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
o1-preview 聊天完成 - 输入:文本(128,000 个标记)
- 输出: 文本(32,768 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
o1-mini 聊天完成 - 输入:文本(128,000 个标记)
- 输出: 文本(65,536 个标记)
- 工具调用:
- 响应格式:文本
gpt-4o-realtime-preview 实时 - 输入:控制、文本和音频(131,072 个标记)
- 输出:文本和音频(16,384 个标记)
- 工具调用:
- 响应格式:文本、JSON
gpt-4o 聊天完成(包含图像和音频内容) - 输入:文本、图像和音频(131,072 个标记)
- 输出:文本(16,384 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
gpt-4o-mini 聊天完成(包含图像和音频内容) - 输入:文本、图像和音频(131,072 个标记)
- 输出:文本(16,384 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
text-embedding-3-large embeddings - 输入:文本(8,191 个标记)
- 输出: 矢量 (3,072 维)
text-embedding-3-small embeddings - 输入:文本(8,191 个标记)
- 输出: 矢量 (1,536 dim.)

请参阅 Azure AI 模型目录中的此模型集合

Cohere

Cohere 系列模型包括针对各种用途优化的不同模型,包括重新排序、聊天生成和嵌入模型。

Cohere 命令和嵌入

下表列出了可以通过 Azure AI 模型推理推断的 Cohere 模型。

型号 类型 能力
Cohere-command-A 聊天完成 - 输入: 文本(256,000 个标记)
- 输出: 文本(8,000 个标记)
- 工具调用:
- 响应格式:文本
Cohere-command-r-plus-08-2024 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Cohere-command-r-08-2024 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Cohere-command-r-plus
(已弃用)
聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Cohere-command-r
(已弃用)
聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Cohere-embed-4 embeddings
图像嵌入
- 输入: 图像、文本
- 输出: 图像、文本(128,000 个令牌)
- 工具调用:
- 响应格式: 图像、文本
Cohere-embed-v3-english embeddings
图像嵌入
- 输入:文本(512 个标记)
- 输出: 矢量 (1,024维)
Cohere-embed-v3-多语言 embeddings
图像嵌入
- 输入:文本(512 个标记)
- 输出: 矢量 (1,024维)

推理示例: Cohere 命令和嵌入

有关如何使用 Cohere 模型的更多示例,请参阅以下示例:

DESCRIPTION 语言 示例
Web 请求 Bash(Unix命令解释器) Command-RCommand-R+
cohere-embed.ipynb
适用于 C# 的 Azure AI 推理包 C#(编程语言) 链接
适用于 JavaScript 的 Azure AI 推理包 Javascript 链接
适用于 Python 的 Azure AI 推理包 Python语言 链接
OpenAI SDK(实验性) Python语言 链接
LangChain Python语言 链接
Cohere SDK Python语言 命令
嵌入
LiteLLM SDK Python语言 链接

检索增强生成 (RAG) 和工具使用示例: Cohere 命令和嵌入

DESCRIPTION 示例
使用 Cohere 嵌入项创建本地 Facebook AI 相似性搜索 (FAISS) 矢量索引 - Langchain langchainlangchain_cohere cohere_faiss_langchain_embed.ipynb
使用 Cohere Command R/R+ 根据本地 FAISS 矢量索引中的数据来回答问题 - Langchain langchainlangchain_cohere command_faiss_langchain.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Langchain langchainlangchain_cohere cohere-aisearch-langchain-rag.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Cohere SDK cohereazure_search_documents cohere-aisearch-rag.ipynb
使用 LangChain 调用 Command R+ 工具/函数 coherelangchainlangchain_cohere command_tools-langchain.ipynb

Cohere 重新排序

下表列出了 Cohere 重排序模型。 若要使用这些重新调整模型执行推理,需要使用表中列出的 Cohere 自定义重新调整 API。

型号 类型 推理 API
Cohere-rerank-v3.5 rerank
文本分类
Cohere 的 v2/rerank API
Cohere-rerank-v3-english
(已弃用)
rerank
文本分类
Cohere 的 v2/rerank API
Cohere 的 v1/rerank API
Cohere-rerank-v3-多语言支持
(已弃用)
rerank
文本分类
Cohere 的 v2/rerank API
Cohere 的 v1/rerank API

Cohere Rerank 模型的定价

查询(不要与用户的查询混淆)是一种定价计量,是指与用作 Cohere Rerank 模型的推理输入的标记关联的成本。 Cohere 将单个搜索单元计为一个查询,最多可为 100 个文档排序。 当文档长度加上搜索查询的长度超过 500 个标记(对于 Cohere-rerank-v3.5)或超过 4096 个标记(对于 Cohere-rerank-v3-English 和 Cohere-rerank-v3-multilingual)时,文档会被拆分为多个部分,每个部分计为一个单独的文档。

请参阅 Azure AI 模型目录中的 Cohere 模型集合

Core42

Core42 包含阿拉伯语和英语的自回归双语 LLM,在阿拉伯语中具有最先进的功能。

型号 类型 能力
jais-30b-chat 聊天完成 - 输入:文本(8,192 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON

请参阅 Azure AI 模型目录中的此模型集合

推理示例:Core42

有关如何使用 Jais 模型的更多示例,请参阅以下示例:

DESCRIPTION 语言 示例
适用于 C# 的 Azure AI 推理包 C#(编程语言) 链接
适用于 JavaScript 的 Azure AI 推理包 Javascript 链接
适用于 Python 的 Azure AI 推理包 Python语言 链接

DeepSeek

DeepSeek 系列模型包括 DeepSeek-R1 和 DeepSeek-V3-0324。DeepSeek-R1 擅长通过分步训练过程处理推理任务,例如语言、科学推理和编码任务。DeepSeek-V3-0324 是一种专家混合(MoE)语言模型。此外,还有其他模型。

型号 类型 能力
DeekSeek-V3-0324 聊天完成 - 输入:文本(131,072 个标记)
- 输出: (131,072 个令牌)
- 工具调用:
- 响应格式:文本、JSON
DeepSeek-V3
(旧版)
聊天完成 - 输入:文本(131,072 个标记)
- 输出: 文本(131,072 个标记)
- 工具调用:
- 响应格式:文本、JSON
DeepSeek-R1 聊天完成与推理内容 - 输入: 文本(163,840 个标记)
- 输出: 文本(163,840 个标记)
- 工具调用:
- 响应格式:文本。

有关 DeepSeek-R1 的教程,请参阅 教程:Azure AI 模型推理中的 DeepSeek-R1 推理模型入门

请参阅 Azure AI 模型目录中的此模型集合

推理示例:DeepSeek

有关如何使用 DeepSeek 模型的更多示例,请参阅以下示例:

DESCRIPTION 语言 示例
适用于 Python 的 Azure AI 推理包 Python语言 链接
适用于 JavaScript 的 Azure AI 推理包 Javascript 链接
适用于 C# 的 Azure AI 推理包 C#(编程语言) 链接
适用于 Java 的 Azure AI 推理包 爪哇岛 链接

Meta公司

Meta Llama 模型和工具是预训练和微调的生成式 AI 文本和图像推理模型的集合。 元模型的范围经过调整以包括:

  • 小型语言模型 (SLM),如 1B 和 3B Base 模型,以及用于设备和边缘推理的 Instruct 模型
  • 中等大型语言模型 (LLM),如 7B、8B 和 70B Base 模型和 Instruct 模型
  • 高性能模型(如 Meta Llama 3.1-405B Instruct),用于合成数据生成和蒸馏用例。
  • 高性能的本地化多模态模型 Llama 4 Scout 和 Llama 4 Maverick,利用专家混合体系结构,在文本和图像理解方面提供行业领先的性能。
型号 类型 能力
Llama-4-Scout-17B-16E-Instruct 聊天完成 - 输入:文本和图像(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Llama 4-Maverick-17B-128E-Instruct-FP8 聊天完成 - 输入:文本和图像(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Llama-3.3-70B-Instruct 聊天完成 - 输入:文本(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Llama-3.2-90B-Vision-Instruct 聊天完成(包含图像) - 输入:文本和图像(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Llama-3.2-11B-Vision-Instruct 聊天完成(包含图像) - 输入:文本和图像(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3.1-8B-Instruct 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3.1-405B-Instruct 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3.1-70B-Instruct (已弃用) 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3-8B-Instruct (已弃用) 聊天完成 - 输入:文本(8,192 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3-70B-Instruct (已弃用) 聊天完成 - 输入:文本(8,192 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本

请参阅 Azure AI 模型目录中的此模型集合

推理示例: Meta Llama

有关如何使用 Meta Llama 模型的更多示例,请参阅以下示例:

DESCRIPTION 语言 示例
CURL 请求 Bash(Unix命令解释器) 链接
适用于 C# 的 Azure AI 推理包 C#(编程语言) 链接
适用于 JavaScript 的 Azure AI 推理包 Javascript 链接
适用于 Python 的 Azure AI 推理包 Python语言 链接
Python Web 请求 Python语言 链接
OpenAI SDK(实验性) Python语言 链接
LangChain Python语言 链接
LiteLLM Python语言 链接

微软

Microsoft模型包括各种模型组,例如 MAI 模型、Phi 模型、医疗保健 AI 模型等。 若要查看所有可用的Microsoft模型,请查看 Azure AI Foundry 门户中的Microsoft模型集合

型号 类型 能力
MAI-DS-R1 聊天完成与推理内容 - 输入: 文本(163,840 个标记)
- 输出: 文本(163,840 个标记)
- 工具调用:
- 响应格式:文本。
Phi-4-reasoning 聊天完成与推理内容 - 输入: 文本(32768 标记)
- 输出: 文本(32768 令牌)
- 工具调用:
- 响应格式:文本
Phi-4-mini-reasoning 聊天完成与推理内容 - 输入:文本(128,000 个标记)
- 输出: 文本(128,000 个标记)
- 工具调用:
- 响应格式:文本
Phi-4-multimodal-instruct 聊天完成(包含图像和音频内容) - 输入: 文本、图像和音频(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-4-mini-instruct 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-4 聊天完成 - 输入:文本(16,384 个标记)
- 输出:文本(16,384 个标记)
- 工具调用:
- 响应格式:文本
Phi-3.5-mini-instruct 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3.5-MoE-instruct 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3.5-vision-instruct 聊天完成(包含图像) - 输入:文本和图像(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-mini-128k-instruct 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-mini-4k-instruct 聊天完成 - 输入:文本(4,096 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-small-128k-instruct 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-small-8k-instruct 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-medium-128k-instruct 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-medium-4k-instruct 聊天完成 - 输入:文本(4,096 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本

推理示例:Microsoft模型

有关如何使用Microsoft模型的更多示例,请参阅以下示例:

DESCRIPTION 语言 示例
适用于 C# 的 Azure AI 推理包 C#(编程语言) 链接
适用于 JavaScript 的 Azure AI 推理包 Javascript 链接
适用于 Python 的 Azure AI 推理包 Python语言 链接
LangChain Python语言 链接
Llama-Index Python语言 链接

请参阅 Azure AI 模型目录中的Microsoft模型集合

Mistral人工智能

Mistral AI 提供以下两类模型:

  • 高级模型:这些包括 Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3(25.05)和 Ministral 3B 模型,作为无服务器 API 提供,采用即用即付的令牌计费方式。
  • 开放模型:其中包括 Mistral-small-2503, Codestral 和 Mistral Nemo(可用作基于即用即付令牌的无服务器 API),以及 Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01 和 Mistral-7B-v01(可用于下载和运行在自托管管理端点上)。
型号 类型 能力
Codestral-2501 聊天完成 - 输入:文本(262,144 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
米尼斯特拉尔-3B 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-Nemo 聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-Large-2411 聊天完成 - 输入:文本(128,000 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-large-2407
(已弃用)
聊天完成 - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-large
(已弃用)
聊天完成 - 输入:文本(32,768 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-medium-2505 聊天完成 - 输入: 文本(128,000 个标记),图像
- 输出: 文本(128,000 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-OCR-2503 图像到文本 - 输入: 图像或 PDF 页面(1,000 页,最大 50MB PDF 文件)
- 输出: 文本
- 工具调用:
- 响应格式: 文本、JSON、Markdown
Mistral-small-2503 聊天完成(包含图像) - 输入: 文本和图像(131,072 个标记),
图像型标记为 16px x 16px
原始图像块
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-small 聊天完成 - 输入:文本(32,768 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON

请参阅 Azure AI 模型目录中的此模型集合

推理示例:“Mistral”

有关如何使用 Mistral 模型的更多示例,请参阅以下示例和教程:

DESCRIPTION 语言 示例
CURL 请求 Bash(Unix命令解释器) 链接
适用于 C# 的 Azure AI 推理包 C#(编程语言) 链接
适用于 JavaScript 的 Azure AI 推理包 Javascript 链接
适用于 Python 的 Azure AI 推理包 Python语言 链接
Python Web 请求 Python语言 链接
OpenAI SDK(实验性) Python语言 Mistral - OpenAI SDK 示例
LangChain Python语言 Mistral - LangChain 示例
Mistral人工智能 Python语言 Mistral - Mistral AI 示例
LiteLLM Python语言 Mistral - LiteLLM 示例

Nixtla

Nixtla 的 TimeGEN-1 是一个用于时序数据的生成预训练模型,能够进行预测和异常检测。 TimeGEN-1 可以在不训练的情况下为新的时序生成准确的预测,仅使用历史值和外生协变量作为输入。

若要执行推理,TimeGEN-1 要求使用 Nixtla 的自定义推理 API。

型号 类型 能力 推理 API
TimeGEN-1 预测 - 输入: 时序数据作为 JSON 或数据帧(支持多变量输入)
- 输出: 时序数据作为 JSON
- 工具调用:
- 响应格式: JSON
预测客户端与 Nixtla 的 API 交互

估算所需的标记数

在创建 TimeGEN-1 部署之前,最好是估算你要使用的付费标记数。 一个标记对应于输入数据集或输出数据集中的一个数据点。

假设你有以下输入时序数据集:

Unique_id 时间戳 目标变量 外生变量 1 外生变量 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

若要确定标记数,请将行数(在此示例中为 2)乘以用于预测的列数 - 不包括 unique_id 和 timestamp 列(在此示例中为 3),总共得出 6 个标记。

给定如下输出数据集:

Unique_id 时间戳 预测的目标变量
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

你还可以通过统计数据预测后返回的数据点数来确定标记数。 在此示例中,标记数为 2。

根据标记估算定价

有四个定价计量器用于确定支付价格。 这些计量器如下:

价格计量器 DESCRIPTION
paygo-inference-input-tokens 当 finetune_steps = 0 时,与用作推理输入的标记关联的成本
paygo-inference-output-tokens 当 finetune_steps = 0 时,与用作推理输出的标记关联的成本
paygo-finetuned-model-inference-input-tokens 当 finetune_steps 0 时,与用作推理输入的标记关联的成本>
paygo-finetuned-model-inference-output-tokens 当 finetune_steps > 0 时,与用作推理输出的标记关联的成本

请参阅 Azure AI 模型目录中的 Nixtla 模型集合

NTT DATA

tsuzumi 是自动回归语言优化转换器。 优化版本使用监督式微调(SFT)。 tsuzumi 可以高效地处理日语和英语。

型号 类型 能力
tsuzumi-7b 聊天完成 - 输入:文本(8,192 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本

稳定性 AI

Stability AI 的图像生成模型集合包括 Stable Image Core、Stable Image Ultra 和 Stable Diffusion 3.5 Large。 Stable Diffusion 3.5 Large 允许图像和文本输入。

型号 类型 能力
稳定扩散 3.5 大型版 图像生成 - 输入: 文本和图像(1000 个令牌和 1 个图像)
- 输出: 1 个图像
- 工具调用:
- 响应格式:图像(PNG 和 JPG)
稳定映像核心 图像生成 - 输入: 文本(1000 个标记)
- 输出: 1 个图像
- 工具调用:
- 响应格式: 图像(PNG 和 JPG)
Stable Image Ultra 图像生成 - 输入: 文本(1000 个标记)
- 输出: 1 个图像
- 工具调用:
- 响应格式: 图像(PNG 和 JPG)

推理示例: 稳定性 AI

标准部署中的 Stability AI 模型在路由 /image/generations 上实现了 Azure AI 模型推理 API。 有关如何使用稳定性 AI 模型的示例,请参阅以下示例: