Azure AI 模型推理(预览版)
使用无服务器终结点和自承载终结点在 Azure AI 和 Azure ML 中部署的模型的模型推理 API。
此连接器在以下产品和区域中可用:
| Service | Class | 区域 |
|---|---|---|
| 逻辑应用程序 | 标准 | 除以下各项外的所有 逻辑应用区域 : - Azure Government区域 - Azure中国区域 - 美国国防部(DoD) |
| 联系人 | |
|---|---|
| 名称 | Microsoft |
| URL | https://support.microsoft.com |
| 连接器元数据 | |
|---|---|
| 发布者 | Microsoft Copilot Studio |
| 隐私策略 | https://privacy.microsoft.com/privacystatement |
| 网站 | https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api |
| 类别 | AI |
Azure AI 推理连接器让你从 azure ai studio 连接到自己的模型
先决条件
- 在 azure ai studio 中部署的模型
获取凭据
若要对 API 请求进行身份验证,需要模型的终结点和 API 密钥。
导航到 Azure open ai studio 中的资源 -> 部署。 然后在终结点下,终结点是“目标 URI”,密钥位于“密钥”下。
支持的操作
Azure AI 推理连接器支持以下操作:
- GetModelInfo - 返回有关在终结点下部署的模型的信息
所需参数:
* `api-version` - The version of the Inference API
- GetChatCompletions - 为给定聊天对话创建模型响应
所需参数:
* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models
可选参数的默认值:
* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1
正在创建连接
连接器支持以下身份验证类型:
| 默认 | 用于创建连接的参数。 | 所有区域 | 不可共享 |
违约
适用:所有区域
用于创建连接的参数。
这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。
| 名称 | 类型 | 说明 | 必需 |
|---|---|---|---|
| Azure 模型终结点 URL | 字符串 | 输入已部署模型终结点的 URL。 例如:https://resource.openai.azure.com | 真 实 |
| API 密钥 | securestring | 此 API 的授权 | 真 实 |
限制
| 名称 | 调用 | 续订期 |
|---|---|---|
| 每个连接的 API 调用数 | 100 | 60 秒 |
操作
| 为给定聊天对话创建模型响应 |
为给定聊天对话创建模型响应。 |
| 返回有关在终结点下部署的模型的信息 |
返回有关 AI 模型的信息。 该方法对给定终结点上的路由进行 REST API 调用 |
为给定聊天对话创建模型响应
为给定聊天对话创建模型响应。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
内容
|
content | True | string |
系统消息的内容。 |
|
角色
|
role | True | string |
消息作者的角色,在本例中为 |
|
名字
|
name | string |
参与者的可选名称。 提供模型信息,以区分同一角色的参与者。 |
|
|
frequency_penalty
|
frequency_penalty | float |
一个值,该值根据生成的文本中的累积频率影响生成的令牌出现概率。 正值将使标记在频率增加时不太可能出现,并降低重复相同语句的模型的可能性。 支持的范围为 [-2, 2]。 |
|
|
数据流
|
stream | boolean |
一个值,该值指示是否应为此请求流式传输聊天完成。 |
|
|
presence_penalty
|
presence_penalty | float |
一个值,该值根据生成的文本中的现有状态影响生成的令牌出现的概率。 正值将使标记在已存在时不太可能出现,并增加模型输出新主题的可能性。 支持的范围为 [-2, 2]。 |
|
|
温度
|
temperature | float |
用于控制生成的完成的明显创造力的采样温度。 较高的值将使输出更随机,而较低的值将使结果更加集中和确定性。 不建议修改与这两个设置交互相同的完成请求的温度和top_p,这两种设置的交互难以预测。 支持的范围为 [0, 1]。 |
|
|
top_p
|
top_p | float |
使用称为核采样的温度进行采样的替代方法。 此值会导致模型考虑具有提供的概率质量的令牌结果。 例如,值 0.15 只会导致考虑概率质量的前 15 个% 的标记。 不建议修改与这两个设置交互相同的完成请求的温度和top_p,这两种设置的交互难以预测。 支持的范围为 [0, 1]。 |
|
|
max_tokens
|
max_tokens | integer |
要生成的令牌的最大数目。 |
|
|
类型
|
type | string |
必须是 |
|
|
停止
|
stop | array of string |
将结束完成生成的文本序列的集合。 |
|
|
类型
|
type | True | string |
工具的类型。 目前仅支持 |
|
说明
|
description | string |
有关函数的作用的说明。 选择函数并解释其参数时,模型将使用此说明。 |
|
|
名字
|
name | True | string |
要调用的函数的名称。 |
|
参数
|
parameters | object |
函数接受的参数,被描述为 JSON 架构对象。 |
|
|
seed
|
seed | integer |
如果指定,系统将尽最大努力确定性地采样,以便重复具有相同种子和参数的请求应返回相同的结果。 无法保证确定性。 |
|
|
模型
|
model | string |
在终结点上提供多个模型时,要使用的特定 AI 模型的 ID。 |
|
|
采用“YYYY-MM-DD”或“YYYY-MM-DD-preview”格式的 API 版本。
|
api-version | True | string |
采用“YYYY-MM-DD”或“YYYY-MM-DD-preview”格式的 API 版本。 |
|
控制传递未知参数时会发生什么情况。
|
extra-parameters | string |
控制在 JSON 请求有效负载中传递其他参数(由 REST API 未定义)会发生什么情况。 这会设置 HTTP 请求标头 |
|
|
要将请求路由到的部署的名称。
|
azureml-model-deployment | string |
要将请求路由到的部署的名称。 支持多个部署的终结点支持。 |
返回
表示模型根据提供的输入返回的聊天补全响应。
返回有关在终结点下部署的模型的信息
返回有关 AI 模型的信息。 该方法对给定终结点上的路由进行 REST API 调用 /info 。 仅当使用无服务器 API 或托管计算终结点时,此方法才起作用。 它不适用于 GitHub Models 终结点或 Azure OpenAI 终结点。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
采用“YYYY-MM-DD”或“YYYY-MM-DD-preview”格式的 API 版本。
|
api-version | True | string |
采用“YYYY-MM-DD”或“YYYY-MM-DD-preview”格式的 API 版本。 |
|
要将请求路由到的部署的名称。
|
azureml-model-deployment | string |
要将请求路由到的部署的名称。 支持多个部署的终结点支持。 |
返回
表示有关 AI 模型的一些基本信息。
- Body
- ModelInfo
定义
ModelInfo
表示有关 AI 模型的一些基本信息。
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
model_name
|
model_name | string |
AI 模型的名称。 |
|
|
model_type | string |
AI 模型的类型。 配置文件的唯一标识符。 |
|
model_provider_name
|
model_provider_name | string |
模型提供程序名称。 |
|
capabilities
|
capabilities |
ChatCompletionMessageToolCalls
模型生成的工具调用,例如函数调用。
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
物品
|
ChatCompletionMessageToolCall |
ChatCompletionMessageToolCall
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
id
|
id | string |
工具调用的 ID。 |
|
类型
|
type | string |
工具的类型。 目前仅支持 |
|
名字
|
function.name | string |
要调用的函数名称。 |
|
争论
|
function.arguments | string |
用于调用函数的参数,由模型以 JSON 格式生成。 请注意,该模型并非始终生成有效的 JSON,并且可能会幻化出未由函数架构定义的参数。 在调用函数之前验证代码中的参数。 |
ChatCompletionResponseMessage
模型生成的聊天补全消息。
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
内容
|
content | string |
消息的内容。 |
|
tool_calls
|
tool_calls | ChatCompletionMessageToolCalls |
模型生成的工具调用,例如函数调用。 |
|
角色
|
role | string |
此消息作者的角色。 |
CreateChatCompletionResponse
表示模型根据提供的输入返回的聊天补全响应。
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
id
|
id | string |
与此聊天完成响应关联的唯一标识符。 |
|
选择
|
choices | array of object |
聊天完成选项的列表。 如果 |
|
|
choices.finish_reason | string |
模型停止生成令牌的原因。
|
|
content_filter_result
|
choices.content_filter_result | ||
|
索引
|
choices.index | integer |
与此聊天完成选项关联的有序索引。 |
|
消息
|
choices.message | ChatCompletionResponseMessage |
模型生成的聊天补全消息。 |
|
已创建
|
created | integer |
与此完成响应的生成活动关联的第一个时间戳,表示为自 1970 年 1 月 1 日 Unix 00:00 开始以来的秒数。 |
|
模型
|
model | string |
用于聊天补全的模型。 |
|
对象
|
object | string |
始终为 |
|
使用情况
|
usage | CompletionUsage |
为完成请求处理的令牌计数的表示形式。 计数将考虑提示、选择、选择备用、best_of代和其他使用者的所有令牌。 |
CompletionUsage
为完成请求处理的令牌计数的表示形式。 计数将考虑提示、选择、选择备用、best_of代和其他使用者的所有令牌。
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
completion_tokens
|
completion_tokens | integer |
在所有完成排放中生成的令牌数。 |
|
prompt_tokens
|
prompt_tokens | integer |
提供的令牌数会提示完成请求。 |
|
total_tokens
|
total_tokens | integer |
为完成请求和响应处理的令牌总数。 |