你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Studio 中的模型目录和集合

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

Azure AI Studio 中的模型目录是用于发现和使用各种模型的中心,这些模型可用于构建生成式 AI 应用程序。 模型目录跨模型提供商(例如 Azure OpenAI 服务、Mistral、Meta、Cohere、NVIDIA、Hugging Face)提供数百个模型,其中包括由 Microsoft 训练的模型。 来自 Microsoft 以外的提供商的模型是非 Microsoft 产品,如 Microsoft 产品条款中所定义的,并受模型随附的条款的约束。

模型集合

模型目录将模型组织成三种集合:

  • Azure AI 特选:最流行的非 Microsoft 开放权重和专有模型经打包和优化,可以无缝地在 Azure AI 平台上工作。 使用这些模型须遵守模型提供商的许可条款。 在 Azure AI Studio 中部署这些模型时,它们的可用性受适用的 Azure 服务级别协议 (SLA) 约束,Microsoft 将为部署问题提供支持。

    来自 Meta、NVIDIA 和 Mistral AI 等合作伙伴的模型是目录中此集合提供的模型示例。 可以通过查看目录中模型磁贴上的绿色勾选标记来识别这些模型。 或者,可以按由“Azure AI 特选”集合进行筛选

  • Azure 独家提供的 Azure OpenAI 模型:通过与 Azure OpenAI 服务的集成提供的 Azure OpenAI 旗舰模型。 Microsoft 将为这些模型提供支持,它们的使用受产品条款和 Azure OpenAI 服务的 SLA 的约束。

  • 来自 Hugging Face 中心的开放模型:来自 Hugging Face 中心的数百个模型,用于在托管计算中进行实时推理。 此集合中列出的模型由 Hugging Face 创建和维护。 如需帮助,请使用 Hugging Face 论坛Hugging Face 支持。 在使用 Azure AI Studio 部署开放模型中了解详细信息。

可以使用此表单来请求将模型添加到模型目录。

模型目录功能的概述

可以使用托管计算选项部署“Azure AI 特选”和“来自 Hugging Face 中心的开放模型”集合中的某些模型。 某些模型可以通过无服务器 API 部署,采用即用即付计费模式。

你可以发现、比较、评估、微调(如果支持)和大规模部署这些模型。 然后,可以将模型集成到提供企业级安全性和数据治理的生成式 AI 应用程序中。 以下列表详细描述了这些活动:

  • 发现:查看模型卡,尝试示例推理并浏览代码示例以评估、微调或部署模型。
  • 比较:比较行业中可用的模型和数据集的基准,以评估哪一个基准适合你的业务方案。
  • 评估:通过提供自己的测试数据来评估模型是否适合特定工作负载。 使用评估指标来可视化所选模型在方案中的表现。
  • 微调:使用自己的训练数据自定义可微调模型,并通过比较所有微调作业中的指标来选择最佳模型。 内置优化可以加速微调并减少所需的内存和计算资源。
  • 部署:无缝部署预先训练的模型或微调的模型进行推理。 还可以下载可部署到托管计算的模型。

有关 Azure OpenAI 模型的详细信息,请参阅什么是 Azure OpenAI 服务?

模型部署:托管计算和无服务器 API(即用即付)

模型目录提供了两种不同的方法用于部署模型以供使用:托管计算和无服务器 API。

每个模型的可用部署选项和功能各不相同,如下表中所述。 详细了解如何使用部署选项进行数据处理

模型部署选项的功能

功能 托管计算 无服务器 API(即用即付)
部署体验和计费 模型权重部署到具有托管计算的专用虚拟机。 托管计算可以有一个或多个部署,因此可以作为 REST API 进行推理。 将根据部署使用的虚拟机核心小时数计费。 对模型的访问通过预配 API 来访问模型的部署进行。 使用该 API 可以访问 Microsoft 托管和管理的推理模型。 你需要为 API 的输入和输出(通常为标记形式)付费。 在部署之前会提供定价信息。
API 身份验证 密钥和 Microsoft Entra 身份验证。 仅密钥。
Content Safety 使用 Azure AI 内容安全服务 API。 Azure AI 内容安全筛选器可与推理 API 集成。 Azure AI 内容安全筛选器将单独计费。
网络隔离 为 Azure AI Studio 中心配置托管网络。 托管计算将遵循中心的公用网络访问 (PNA) 标志设置。 有关详细信息,请参阅本文稍后的通过无服务器 API 部署的模型的网络隔离部分。

适用于受支持部署选项的可用模型

型号 托管计算 无服务器 API(即用即付)
Llama 系列模型 Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Llama-3-8B-Instruct
Llama-3-70B-Instruct
Llama-3-8B
Llama-3-70B
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Mistral 系列模型 mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruct-v0-1
mistral-community-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruct-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruct-v01
mistralai-Mistral-7B-Instruct-v01
Mistral-large (2402)
Mistral-large (2407)
Mistral-small
Ministral-3B
Mistral-NeMo
Cohere 系列模型 不可用 Cohere-command-r-plus-08-2024
Cohere-command-r-08-2024
Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
Cohere-rerank-v3-english
Cohere-rerank-v3-multilingual
JAIS 不可用 jais-30b-chat
医疗保健 AI 系列模型 MedImageInsight
CxrReportGen
MedImageParse
不可用
Phi-3 系列模型 Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-small-128k-Instruct
Phi-3-medium-4k-instruct
Phi-3-medium-128k-instruct
Phi-3-vision-128k-Instruct
Phi-3.5-mini-Instruct
Phi-3.5-vision-Instruct
Phi-3.5-MoE-Instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-small-128k-Instruct
Phi-3-medium-4k-instruct
Phi-3-medium-128k-instruct

Phi-3.5-mini-Instruct
Phi-3.5-vision-Instruct
Phi-3.5-MoE-Instruct
Nixtla 不可用 TimeGEN-1
其他模型 可用 不可用

显示模型即服务和托管计算服务周期的示意图。

托管计算

将模型部署为托管计算的功能基于 Azure 机器学习的平台功能构建,能够在大型语言模型 (LLM) 操作的整个生命周期内无缝集成模型目录中的广泛模型集合。

显示大型语言模型操作的生命周期的示意图。

可部署为托管计算的模型的可用性

这些模型通过 Azure 机器学习注册表提供。 这些注册表允许使用机器学习优先的方法来托管和分发 Azure 机器学习资产。 这些资产包括模型权重、用于运行模型的容器运行时、用于评估和微调模型的管道,以及基准和示例的数据集。

这些注册表基于高度可缩放和企业就绪的基础结构构建,该基础结构可以:

  • 向具有内置异地复制的所有 Azure 区域提供低延迟访问模型工件。

  • 支持企业安全要求,例如使用 Azure Policy 限制访问模型,以及使用托管虚拟网络保护部署。

使用托管计算部署用于推理的模型

可用于部署到托管计算的模型可以部署到 Azure 机器学习托管计算进行实时推理。 部署到托管计算时,需要在 Azure 订阅中为特定产品提供虚拟机配额,以便能够以最佳方式运行模型。 某些模型允许部署到临时共享的配额以进行模型测试

了解有关部署模型的详细信息:

使用托管计算构建生成式 AI 应用

Azure 机器学习中的提示流功能为原型制作提供了极佳体验。 可以借助开放模型 LLM 工具在提示流中使用通过托管计算部署的模型。 还可以将常用 LLM 工具(例如 LangChain)中由托管计算公开的 REST API 与 Azure 机器学习扩展结合使用。

部署为托管计算的模型的内容安全

Azure AI 内容安全服务可与托管计算配合使用,以筛查各种类别的有害内容,例如色情内容、暴力、仇恨和自残。 你还可以使用该服务来筛查高级威胁,例如越狱风险检测和受保护材料文本检测。

可以参考此笔记本来了解与适用于 Llama 2 的 Azure AI 内容安全的集成。 或者,可以在提示流中使用内容安全(文本)工具将模型的响应传递给 Azure AI 内容安全进行筛查。 你需要为这种用法单独付费,如 Azure AI 内容安全定价中所述。

采用即用即付计费模式的无服务器 API

可将模型目录中的某些模型部署为采用即用即付计费模式的无服务器 API。 这种部署方法有时称为模型即服务 (MaaS),它可以将模型用作 API,而无需将其托管在订阅中。 模型托管在 Microsoft 管理的基础结构中,这使得对模型提供商模型的基于 API 的访问成为可能。 基于 API 的访问可以大幅降低访问模型的成本并简化预配体验。

模型提供商提供可部署为带有即用即付计费的无服务器 API的模型,但这些模型托管在 Microsoft 托管的 Azure 基础结构中,并通过 API 访问。 模型提供商将为其模型定义许可条款并规定价格。 Azure 机器学习服务:

  • 管理宿主基础结构。
  • 提供推理 API。
  • 充当数据处理器,用于处理通过 MaaS 部署的模型提交的提示和输出的内容。

有关数据隐私的文章中详细了解 MaaS 的数据处理。

显示模型发布者服务周期的示意图。

计费

通过 MaaS 部署的模型的发现、订阅和消耗体验位于 Azure AI Studio 和 Azure 机器学习工作室中。 用户接受使用模型时所要遵守的许可条款。 在部署期间将提供所用模型的定价信息。

非 Microsoft 提供商提供的模型将根据 Microsoft 商业市场使用条款通过 Azure 市场计费。

Microsoft 提供的模型将作为第一方消费服务通过 Azure 计量器计费。 如产品条款中所述,可以使用 Azure 计量器购买第一方消费服务,但它们不受 Azure 服务条款的约束。 使用这些模型须遵守提供的许可条款。

微调模型

某些模型还支持无服务器微调。 对于这些模型,可以利用托管微调和即用即付计费模式,使用你提供的数据来定制模型。 有关详细信息,请参阅微调概述

使用部署为无服务器 API 的模型的 RAG

在 Azure AI Studio 中,可以使用矢量索引和检索增强生成 (RAG)。 可以使用可通过无服务器 API 部署的模型来根据自定义数据生成嵌入和推理。 然后,这些嵌入和推理可以生成特定于用例的答案。 有关详细信息,请参阅在 Azure AI Studio 中生成和使用矢量索引

产品/服务和模型的区域可用性

仅当用户的 Azure 订阅属于模型提供商提供该产品/服务的国家/地区的某个计费帐户时,才可使用即用即付计费模式。 如果该产品/服务在相关区域中提供,则用户必须在可部署或微调该模型(如果适用)的 Azure 区域拥有一个中心/项目。 有关详细信息,请参阅无服务器 API 终结点中模型的区域可用性 | Azure AI Studio

通过无服务器 API 部署的模型的内容安全性

对于通过无服务器 API 部署的语言模型,Azure 机器学习实施了 Azure AI 内容安全文本审查筛选器的默认配置,该筛选器可检测仇恨、自残、性和暴力等有害内容。 若要详细了解内容筛选(预览版),请参阅 Azure AI 内容安全中的危害类别

提示

内容筛选(预览版)不适用于通过无服务器 API 部署的某些模型类型。 这些模型类型包括嵌入模型和时序模型。

内容筛选(预览版)与服务处理提示的操作同步进行,以生成内容。 你可能需要根据 Azure AI 内容安全定价为这种用法单独付费。 可通过以下方式为单个无服务器终结点禁用内容筛选(预览版):

  • 首次部署语言模型时
  • 以后,可以通过选择部署详细信息页面上的内容筛选切换开关来禁用

假设你决定使用除 Azure AI 模型推理 API 以外的 API 来处理通过无服务器 API 部署的模型。 在这种情况下,除非使用 Azure AI 内容安全单独实施内容筛选(预览版),否则不会启用它。

若要开始使用 Azure AI 内容安全,请参阅快速入门:分析文本内容。 如果在使用通过无服务器 API 部署的模型时不使用内容筛选(预览版),则用户接触有害内容的风险会更高。

通过无服务器 API 部署的模型的网络隔离

部署为无服务器 API 的托管计算将遵循具有部署所在的项目的 AI Studio 中心的公用网络访问标志设置。 若要帮助保护托管计算,请在 AI Studio 中心上禁用公用网络访问标志。 可以使用中心的专用终结点来帮助保护从客户端到托管计算的入站通信。

若要设置 AI Studio 中心的公用网络访问标志,请执行以下操作:

  • 转到 Azure 门户
  • 搜索中心所属的资源组,并从此资源组列出的资源中选择 AI Studio 中心。
  • 在中心概述页面上的左侧窗格中,转到“设置”>“网络”
  • 在“公共访问”选项卡上,可以配置公用网络访问标志的设置。
  • 保存所做更改。 你所做的更改最多可能需要五分钟才能传播。

限制

  • 如果在 2024 年 7 月 11 日之前创建了具有托管计算的 AI Studio 中心,则添加到此中心的托管计算不会遵循其网络配置。 相反,你需要为中心创建新的托管计算,并在项目中创建新的无服务器 API 部署,以便新部署能够遵循该中心的网络配置。

  • 如果在 2024 年 7 月 11 日之前创建了具有 MaaS 部署的 AI Studio 中心,并且已在此中心上启用托管计算,则现有的 MaaS 部署不会遵循该中心的网络配置。 若要使中心中的无服务器 API 部署遵循该中心的网络配置,需要再次创建部署。

  • 目前,基于自有数据的 Azure OpenAI 支持不适用于专用中心内的 MaaS 部署,因为专用中心禁用了公用网络访问标志。

  • 任何网络配置更改(例如启用或禁用公用网络访问标志)最多可能需要五分钟才能传播。