你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
模型目录和集合
Azure 机器学习工作室中的模型目录是用于发现和使用各种模型的中心,这些模型可用于构建生成式 AI 应用程序。 模型目录提供来自各种模型提供商(例如 Azure OpenAI 服务、Mistral、Meta、Cohere、Nvidia、Hugging Face)的数百个模型,包括由 Microsoft 训练的模型。 来自 Microsoft 以外的提供商的模型是非 Microsoft 产品,如 Microsoft 产品条款中所定义的,并受模型随附的条款的约束。
模型集合
在模型目录中,模型按集合进行组织。 模型目录中有三种类型的集合:
- 由 Azure AI 策展的模型:最受欢迎的第三方开放权重和适当的模型经打包和优化,可以无缝地在 Azure AI 平台上工作。 使用这些模型受模型提供商提供的模型许可条款的约束。 在 Azure 机器学习中部署时,模型的可用性受适用的 Azure SLA 的约束,Microsoft 为部署问题提供支持。 来自 Meta、NVIDIA、Mistral AI 等合作伙伴的模型是目录中“由 Azure AI 策展”集合中提供的模型示例。 可以通过目录中模型磁贴上的绿色复选标记来标识这些模型,也可以按“由 Azure AI 策展”集合进行筛选。
- Azure OpenAI 模型,仅在 Azure 上提供:通过与 Azure OpenAI 服务集成,通过“Azure OpenAI”集合使 Azure OpenAI 模型成为佼佼者。 Microsoft 支持这些模型,其使用受产品条款和 Azure OpenAI 服务的 SLA 的约束。
- Hugging Face 中心的开放模型:可通过“Hugging Face”集合访问来自 HuggingFace 中心的数百个模型,以便通过联机终结点进行实时推理。 Hugging Face 创建并维护 HuggingFace 集合中列出的模型。 使用 HuggingFace 论坛或 HuggingFace 客户支持以取得帮助。 详细了解如何从 Hugging Face 部署模型。
建议向模型目录添加内容:可以使用此表单提交向模型目录添加模型的请求。
模型目录功能概述
有关 Azure OpenAI 模型的信息,请参阅 Azure OpenAI 服务。
对于由 Azure AI 策展的模型和 Hugging Face 中心的开放模型,其中一些可以使用托管计算选项部署,其中一些可以使用无服务器 API 按照即用即付计费进行部署。 可以发现、比较、评估、微调这些模型(受支持时),并大规模部署和集成到具有企业级安全性和数据管理的生成式 AI 应用程序中。
- 发现:查看模型卡,尝试示例推理并浏览代码示例以评估、微调或部署模型。
- 比较:比较行业中可用的模型和数据集的基准,以评估哪一个基准适合你的业务方案。
- 评估:通过提供自己的测试数据来评估模型是否适合特定工作负载。 评估指标可以很容易地可视化所选模型在方案中的表现。
- 微调:使用自己的训练数据自定义可微调模型,并通过比较所有微调作业中的指标来选择最佳模型。 内置优化,可加快微调并减少微调所需的内存和计算。
- 部署:无缝部署预先训练的模型或微调的模型进行推理。 也可以下载可部署到托管计算的模型。
模型部署:托管计算和无服务器 API(即用即付)
模型目录提供了两种不同的方法,用于从目录中部署模型以供使用:托管计算和无服务器 API。 每个模型可用的部署选项各不相同;在下表中详细了解部署选项的功能以及可用于特定模型的选项。 详细了解如何使用部署选项数据处理。
功能 | 托管计算 | 无服务器 API(即用即付) |
---|---|---|
部署体验和计费 | 模型权重部署到具有托管联机终结点的专用虚拟机。 托管联机终结点可以有一个或多个部署,因此可以作为 REST API 进行推理。 将根据部署使用的虚拟机核心小时数计费。 | 对模型的访问通过预配 API 来访问模型的部署进行。 API 提供对由 Microsoft 管理的中央 GPU 池中托管的模型的访问权限,以便进行推理。 此访问模式称为“模型即服务”。 对于 API 的输入和输出,通常以令牌为单位计费;部署前会提供定价信息。 |
API 身份验证 | 密钥和 Microsoft Entra ID 身份验证。 了解详细信息。 | 仅密钥。 |
Content Safety | 使用 Azure 内容安全服务 API。 | Azure AI 内容安全筛选器可与推理 API 集成。 Azure AI 内容安全筛选器可以单独计费。 |
网络隔离 | 使用联机终结点的托管虚拟网络。 了解详细信息。 |
部署选项
模型 | 托管计算 | 无服务器 API(即用即付) |
---|---|---|
Llama 系列模型 | Llama-2-7b Llama-2-7b-chat Llama-2-13b Llama-2-13b-chat Llama-2-70b Llama-2-70b-chat Llama-3-8B-Instruct Llama-3-70B-Instruct Llama-3-8B Llama-3-70B |
Llama-3-70B-Instruct Llama-3-8B-Instruct Llama-2-7b Llama-2-7b-chat Llama-2-13b Llama-2-13b-chat Llama-2-70b Llama-2-70b-chat |
Mistral 系列模型 | mistralai-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x22B-Instruct-v0-1 mistral-community-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x7B-v01 mistralai-Mistral-7B-Instruct-v0-2 mistralai-Mistral-7B-v01 mistralai-Mixtral-8x7B-Instruct-v01 mistralai-Mistral-7B-Instruct-v01 |
Mistral-large (2402) Mistral-large (2407) Mistral-small Ministral-3B Mistral-Nemo |
Cohere 系列模型 | 不可用 | Cohere-command-r-plus-08-2024 Cohere-command-r-08-2024 Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-english Cohere-embed-v3-multilingual Cohere-rerank-v3-english Cohere-rerank-v3-multilingual |
JAIS | 不可用 | jais-30b-chat |
Phi-3 系列模型 | Phi-3-mini-4k-Instruct Phi-3-mini-128k-Instruct Phi-3-small-8k-Instruct Phi-3-small-128k-Instruct Phi-3-medium-4k-instruct Phi-3-medium-128k-instruct Phi-3-vision-128k-Instruct Phi-3.5-mini-Instruct Phi-3.5-vision-Instruct Phi-3.5-MoE-Instruct |
Phi-3-mini-4k-Instruct Phi-3-mini-128k-Instruct Phi-3-small-8k-Instruct Phi-3-small-128k-Instruct Phi-3-medium-4k-instruct Phi-3-medium-128k-instruct Phi-3.5-mini-Instruct Phi-3.5-vision-Instruct Phi-3.5-MoE-Instruct |
Nixtla | 不可用 | TimeGEN-1 |
其他模型 | 可用 | 不可用 |
托管计算
使用托管计算部署模型的功能基于 Azure 机器学习的平台功能,它能够在整个 GenAIOps(有时称为 LLMOps)生命周期内实现模型目录中广泛模型集合的无缝集成。
如何为托管计算提供模型?
这些模型是通过 Azure 机器学习注册表提供的,使 ML 第一种方法能够托管和分发机器学习资产,例如模型权重、用于运行模型的容器运行时、用于评估和微调基准和示例的模型和数据集的管道。 这些 ML 注册表基于高度可缩放和企业就绪的基础结构构建,这些基础结构可以:
向具有内置异地复制的所有 Azure 区域提供低延迟访问模型项目。
支持企业安全要求,如使用 Azure Policy 限制访问模型以及使用托管虚拟网络实现安全部署。
评估和微调使用托管计算部署的模型
可以使用 Azure 机器学习管道在 Azure 机器学习中评估和微调“由 Azure AI 策展”集合。 可以选择自带评估和微调代码,并仅访问模型权重,或使用提供内置评估和微调功能的 Azure 机器学习组件。 访问此链接了解详细信息。
使用托管计算部署用于推理的模型
可用于通过托管计算部署的模型可以部署到 Azure 机器学习联机终结点进行实时推理,或者可用于 Azure 机器学习批处理推理以批处理数据。 部署到托管计算时,需要在 Azure 订阅中为优化运行模型所需的特定 SKU 设置虚拟机配额。 某些模型允许你部署到临时共享配额以测试模型。 了解有关部署模型的详细信息:
使用托管计算构建生成式 AI 应用
提示流提供原型制作、试验、迭代和部署 AI 应用程序的功能。 可以借助开放模型 LLM 工具在提示流中使用通过托管计算部署的模型。 还可以将常用 LLM 工具(例如 LangChain)中由托管计算公开的 REST API 与 Azure 机器学习扩展结合使用。
使用托管计算部署的模型的内容安全性
Azure AI 内容安全 (AACS) 服务可用于部署到托管计算的模型,以筛选各种类别的有害内容(例如性内容、暴力、仇恨和自残)以及高级威胁(例如越狱风险检测和受保护的材料文本检测)。 可以参考此笔记本来参考与 AACS for Llama 2 的集成,或使用提示流中的内容安全(文本)工具将模型响应传递到 AACS 进行筛选。 对于此类使用,将根据 AACS 定价单独计费。
使用不在模型目录中的模型
对于模型目录中不可用的模型,Azure 机器学习提供了一个开放且可扩展的平台,用于处理所选的模型。 可以使用 Azure 机器学习的开放且可扩展的平台功能引入具有任何框架或运行时的模型,例如针对可以打包框架和运行时的容器的 Azure 机器学习环境,以及用于对模型进行评估或微调的代码的 Azure 机器学习管道。 有关导入模型的示例参考和使用内置运行时和管道,请参阅此笔记本。
使用即用即付计费的无服务器 API
可以使用即用即付计费将模型目录中的某些模型部署为无服务器 API;这种部署方法称为模型即服务 (MaaS)。 通过 MaaS 提供的模型托管在 Microsoft 管理的基础结构中,这使得对模型提供商模型的基于 API 的访问成为可能。 基于 API 的访问可以大幅降低访问模型的成本,并显著简化预配体验。 大多数 MaaS 模型都附带基于令牌的定价。
如何在 MaaS 中提供第三方模型?
模型提供商提供可部署为带有即用即付计费的无服务器 API的模型,但这些模型托管在 Microsoft 托管的 Azure 基础结构中,并通过 API 访问。 模型提供商定义许可条款并设置其模型的使用价格,而 Azure 机器学习服务管理托管基础结构,使推理 API 可用,并充当通过 MaaS 部署的模型提交的提示和内容输出的数据处理器。 有关 MaaS 数据处理的详细信息,请参阅数据隐私一文。
为 MaaS 中的模型使用付费
通过 MaaS 部署的模型的发现、订阅和消耗体验位于 Azure AI Studio 和 Azure 机器学习工作室中。 用户接受使用模型的许可条款,并在部署期间提供消耗的定价信息。 根据商业市场使用条款,将通过 Azure 市场对来自第三方提供商的模型进行计费;Microsoft 中的模型则通过使用 Azure 计量作为第一方消耗服务进行计费。 如产品条款中所述,第一方消耗服务通过 Azure 计量购买,但不受 Azure 服务条款的约束;使用这些模型则受到提供的许可条款的约束。
通过 MaaS 部署用于推理的模型
通过 MaaS 部署模型允许用户访问随时可供使用的推理 API,而无需配置基础结构或预配 GPU,从而节省工程时间和资源。 这些 API 可以与多个 LLM 工具集成,使用量按上一部分所述计费。
通过 MaaS 使用即用即付微调模型
对于通过 MaaS 提供并支持微调的模型,用户可以利用托管微调和即用即付计费来根据所提供的数据定制模型。 有关详细信息,请参阅 Azure AI Studio 中的微调 Llama 2 模型。
通过 MaaS 部署模型的 RAG
Azure AI Studio 使用户能够利用矢量索引和检索扩充生成。 可部署为无服务器 API 的模型可用于基于自定义数据生成嵌入和推理,从而生成特定于其用例的答案。 有关详细信息,请参阅检索增强生成和索引。
产品/服务和模型的区域可用性
仅当用户的 Azure 订阅属于模型提供商提供该产品/服务的国家/地区的某个计费帐户时,才可使用即用即付计费模式。 如果该产品/服务在相关区域中提供,则用户必须在可部署或微调该模型(如果适用)的 Azure 区域拥有一个中心/项目。 有关详细信息,请参阅无服务器 API 终结点中模型的区域可用性。
通过 MaaS 部署的模型的内容安全
重要
此功能目前处于公开预览状态。 此预览版在提供时没有附带服务级别协议,我们不建议将其用于生产工作负荷。 某些功能可能不受支持或者受限。
有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
对于通过无服务器 API 部署的语言模型,Azure 机器学习实施了 Azure AI 内容安全文本审查筛选器的默认配置,该筛选器可检测仇恨、自残、性和暴力等有害内容。 若要详细了解内容筛选(预览版),请参阅 Azure AI 内容安全中的危害类别。
提示
内容筛选(预览版)不适用于通过无服务器 API 部署的某些模型类型。 这些模型类型包括嵌入模型和时序模型。
内容筛选(预览版)与服务处理提示的操作同步进行,以生成内容。 你可能需要根据 Azure AI 内容安全定价为这种用法单独付费。 可通过以下方式为单个无服务器终结点禁用内容筛选(预览版):
- 首次部署语言模型时
- 以后,可以通过选择部署详细信息页面上的内容筛选切换开关来禁用
假设你决定使用除 Azure AI 模型推理 API 以外的 API 来处理通过无服务器 API 部署的模型。 在这种情况下,除非使用 Azure AI 内容安全单独实施内容筛选(预览版),否则不会启用它。
若要开始使用 Azure AI 内容安全,请参阅快速入门:分析文本内容。 如果在使用通过无服务器 API 部署的模型时不使用内容筛选(预览版),则用户接触有害内容的风险会更高。
通过无服务器 API 部署的模型的网络隔离
部署为无服务器 API 的模型终结点将遵循部署所在工作区的公用网络访问 (PNA) 标志设置。 若要保护 MaaS 终结点,请在工作区上禁用 PNA 标志。 可以使用工作区的专用终结点来保护从客户端到终结点的入站通信。
若要设置工作区的 PNA 标志,请执行以下操作:
- 转到 Azure 门户。
- 搜索 Azure 机器学习,并从工作区列表中选择你的工作区。
- 在“概述”页上,使用左侧导航窗格转到“设置”>“网络”。
- 在“公共访问”选项卡下,可以配置公用网络访问标志的设置。
- 保存所做更改。 你所做的更改最多可能需要五分钟才能传播。
限制
- 如果在 2024 年 7 月 11 日之前创建了具有专用终结点的工作区,则添加到此工作区的新 MaaS 终结点不会遵循其网络配置。 相反,你需要为工作区创建新的专用终结点,并在工作区中创建新的无服务器 API 部署,以便新部署能够遵循该工作区的网络配置。
- 如果在 2024 年 7 月 11 日之前创建了具有 MaaS 部署的工作区,并且已在此工作区上启用专用终结点,则现有的 MaaS 部署不会遵循该工作区的网络配置。 若要使工作区中的无服务器 API 部署遵循该工作区的配置,需要再次创建部署。
- 目前,On Your Data 支持不适用于专用工作区中的 MaaS 部署,因为专用工作区禁用了 PNA 标志。
- 任何网络配置更改(例如启用或禁用 PNA 标志)最多可能需要五分钟才能传播。
了解详细信息
- 了解如何使用 Azure 机器学习中的基础模型,以使用 Azure 机器学习工作室 UI 或基于代码的方法进行微调、评估和部署。
- 探索 Azure 机器学习工作室中的模型目录。 需要 Azure 机器学习工作区来探索目录。
- 评估、微调和部署由 Azure 机器学习策展的模型。