Partilhar via


Azure AI Model Inference (Preview)

API de inferência de modelos para modelos implementados em Azure AI e Azure ML com endpoints serverless e auto-hospedados.

Este conector está disponível nos seguintes produtos e regiões:

Service Classe Regiões
Aplicações Lógicas Standard Todas as regiões do Logic Apps , exceto as seguintes:
     - Regiões Azure Government
     - Regiões Azure China
     - Departamento de Defesa dos EUA (DoD)
Entrar em contato
Nome Microsoft
URL https://support.microsoft.com
Metadados do conector
Editor Microsoft Copilot Studio
Política de privacidade https://privacy.microsoft.com/privacystatement
Sítio Web https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Categorias IA

O conector Azure AI Inference permite-lhe ligar ao seu próprio modelo a partir do Azure AI Studio

Pré-requisitos

  • Um modelo implementado no Azure AI Studio

Obtenha as suas credenciais

Para autenticar os seus pedidos de API, vai precisar do endpoint e da chave API do seu modelo.

Navegue até ao seu recurso no Azure Open AI Studio -> deployments. Depois, em Endpoint, o endpoint é o 'Target URI' e a chave está em 'Key'.

Operações suportadas

O conector Azure AI Inference suporta as seguintes operações:

  1. GetModelInfo - Devolve a informação sobre o modelo implementado no endpoint

Parâmetros necessários:

* `api-version` - The version of the Inference API
  1. GetChatCompletions - Cria uma resposta modelo para a conversa de chat dada

Parâmetros necessários:

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Valores padrão dos parâmetros opcionais:

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

A criar uma ligação

O conector suporta os seguintes tipos de autenticação:

Predefinição Parâmetros para criar conexão. Todas as regiões Não compartilhável

Padrão

Aplicável: Todas as regiões

Parâmetros para criar conexão.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Descrição Obrigatório
Azure model endpoint URL cadeia (de caracteres) Introduza a URL do endpoint do seu modelo implementado. Por exemplo: https://resource.openai.azure.com Verdade
chave de API securestring Autorização para esta API Verdade

Limites de Limitação

Name Chamadas Período de Renovação
Chamadas de API por conexão 100 60 segundos

Ações

Cria uma resposta modelo para a conversa de chat dada

Cria um modelo de resposta para determinada conversa de chat.

Devolve a informação sobre o modelo implementado no endpoint

Devolve informação sobre o modelo de IA. O método faz uma chamada REST API para a /info rota no ponto final indicado. Este método só funciona quando se utiliza API Serverless ou endpoint de Computação Gerida. Não funciona para endpoints GitHub Models ou Azure OpenAI.

Cria uma resposta modelo para a conversa de chat dada

Cria um modelo de resposta para determinada conversa de chat.

Parâmetros

Name Chave Necessário Tipo Description
conteúdo
content True string

O conteúdo da mensagem do sistema.

função
role True string

O papel do autor das mensagens, neste caso system.

Nome
name string

Um nome opcional para o participante. Fornece as informações do modelo para diferenciar entre participantes da mesma função.

penalização de frequência
frequency_penalty float

Um valor que influencia a probabilidade de os tokens gerados aparecerem com base na sua frequência cumulativa no texto gerado. Os valores positivos tornarão os tokens menos prováveis de aparecer à medida que sua frequência aumenta e diminuem a probabilidade de o modelo repetir as mesmas declarações literalmente. O alcance suportado é [-2, 2].

fluxo
stream boolean

Um valor que indica se as conclusões do chat devem ser transmitidas para este pedido.

penalização por presença
presence_penalty float

Um valor que influencia a probabilidade de os tokens gerados aparecerem com base na sua presença existente no texto gerado. Valores positivos tornarão os tokens menos prováveis de aparecer quando já existem e aumentarão a probabilidade do modelo de gerar novos tópicos. O alcance suportado é [-2, 2].

temperatura
temperature float

A temperatura de amostragem a ser usada que controla a aparente criatividade das finalizações geradas. Valores mais altos tornarão a saída mais aleatória, enquanto valores mais baixos tornarão os resultados mais focados e determinísticos. Não é recomendável modificar a temperatura e a top_p para a mesma solicitação de conclusão, pois a interação dessas duas configurações é difícil de prever. O alcance suportado é [0, 1].

top_p
top_p float

Uma alternativa à amostragem com temperatura chamada amostragem de núcleo. Este valor faz com que o modelo considere os resultados dos tokens com a massa de probabilidade fornecida. Por exemplo, um valor de 0,15 fará com que apenas os tokens que compõem os 15% superiores da massa de probabilidade sejam considerados. Não é recomendável modificar a temperatura e a top_p para a mesma solicitação de conclusão, pois a interação dessas duas configurações é difícil de prever. O alcance suportado é [0, 1].

máximo de tokens
max_tokens integer

O número máximo de tokens a serem gerados.

tipo
type string

Deve ser um dos text ou json_object.

pare
stop array of string

Uma coleção de sequências textuais que terminam a geração de completões.

tipo
type True string

O tipo da ferramenta. Atualmente, apenas function é suportado.

descrição
description string

Uma descrição do que a função faz. O modelo utilizará esta descrição ao selecionar a função e interpretar os seus parâmetros.

Nome
name True string

O nome da função a ser chamada.

parâmetros
parameters object

Os parâmetros que as funções aceitam, descritos como um objeto de esquema JSON.

seed
seed integer

Se especificado, o sistema fará o melhor esforço para amostrar deterministicamente de modo que pedidos repetidos com a mesma seed e parâmetros devolvam o mesmo resultado. O determinismo não é garantido.

modelo
model string

ID do modelo de IA específico a utilizar, se houver mais do que um modelo disponível no endpoint.

A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".
api-version True string

A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".

Controla o que acontece se um parâmetro desconhecido for ultrapassado.
extra-parameters string

Controla o que acontece se parâmetros adicionais, não definidos pela API REST, forem passados no payload de pedido JSON. Isto define o cabeçalho extra-parametersdo pedido HTTP . erro - O serviço dará erro se detetar parâmetros extra na carga útil do pedido. Este é o padrão padrão do serviço. drop - O serviço irá ignorar (eliminar) parâmetros extra na carga útil do pedido. Só transmite os parâmetros conhecidos ao modelo de IA de back-end. pass-through - O serviço irá passar parâmetros extra para o modelo de IA do back-end.

Nome do deployment para onde quer encaminhar o pedido.
azureml-model-deployment string

Nome do deployment para onde quer encaminhar o pedido. Suportado para endpoints que suportam múltiplas implementações.

Devoluções

Representa uma resposta de conclusão do chat retornada pelo modelo, com base na entrada fornecida.

Devolve a informação sobre o modelo implementado no endpoint

Devolve informação sobre o modelo de IA. O método faz uma chamada REST API para a /info rota no ponto final indicado. Este método só funciona quando se utiliza API Serverless ou endpoint de Computação Gerida. Não funciona para endpoints GitHub Models ou Azure OpenAI.

Parâmetros

Name Chave Necessário Tipo Description
A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".
api-version True string

A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".

Nome do deployment para onde quer encaminhar o pedido.
azureml-model-deployment string

Nome do deployment para onde quer encaminhar o pedido. Suportado para endpoints que suportam múltiplas implementações.

Devoluções

Representa alguma informação básica sobre o modelo de IA.

Corpo
ModelInfo

Definições

ModelInfo

Representa alguma informação básica sobre o modelo de IA.

Name Caminho Tipo Description
model_name
model_name string

O nome do modelo de IA.

model_type string

O tipo de modelo de IA. Um identificador único para o perfil.

model_provider_name
model_provider_name string

O nome do fornecedor do modelo.

capabilities
capabilities

ChatCompletionMessageToolCalls

As chamadas de ferramenta geradas pelo modelo, como chamadas de função.

Name Caminho Tipo Description
Itens
ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Name Caminho Tipo Description
id
id string

O identificador da chamada da ferramenta.

tipo
type string

O tipo da ferramenta. Atualmente, apenas function é suportado.

Nome
function.name string

O nome da função a ser chamada.

arguments
function.arguments string

Os argumentos com os quais chamar a função, conforme gerado pelo modelo no formato JSON. Observe que o modelo nem sempre gera JSON válido e pode alucinar parâmetros não definidos pelo seu esquema de função. Valide os argumentos em seu código antes de chamar sua função.

ChatCompletionResponseMessage

Uma mensagem de conclusão do chat gerada pelo modelo.

Name Caminho Tipo Description
conteúdo
content string

O conteúdo da mensagem.

tool_calls
tool_calls ChatCompletionMessageToolCalls

As chamadas de ferramenta geradas pelo modelo, como chamadas de função.

função
role string

O papel do autor desta mensagem.

CreateChatCompletionResponse

Representa uma resposta de conclusão do chat retornada pelo modelo, com base na entrada fornecida.

Name Caminho Tipo Description
id
id string

Um identificador único associado a esta conversa completa a resposta.

choices
choices array of object

Uma lista de opções de conclusão de chat. Pode ser mais de um se n for maior que 1.

choices.finish_reason string

A razão pela qual o modelo parou de gerar tokens. Isto acontecerá stop se o modelo atingiu um ponto de paragem natural ou uma sequência de paragens fornecida,length se o número máximo de tokens especificado no pedido foi atingido,content_filter se o conteúdo foi omitido devido a um flag dos nossos filtros de conteúdo, setool_calls o modelo chamou uma ferramenta.

content_filter_result
choices.content_filter_result
indexar
choices.index integer

O índice ordenado associado a esta opção de conclusão de conversa.

mensagem
choices.message ChatCompletionResponseMessage

Uma mensagem de conclusão do chat gerada pelo modelo.

criado
created integer

O primeiro carimbo temporal associado à atividade de geração para esta resposta de completação representou-se como segundos desde o início da época Unix das 00:00 a 1 de janeiro de 1970.

modelo
model string

O modelo usado para a conclusão do chat.

objecto
object string

O tipo de objeto, que é sempre chat.completion.

utilização
usage CompletionUsage

Representação das contagens de tokens processadas para um pedido de completação. As contagens consideram todos os tokens através de prompts, escolhas, alternativas de escolha, gerações best_of e outros consumidores.

CompletionUsage

Representação das contagens de tokens processadas para um pedido de completação. As contagens consideram todos os tokens através de prompts, escolhas, alternativas de escolha, gerações best_of e outros consumidores.

Name Caminho Tipo Description
completion_tokens
completion_tokens integer

O número de tokens gerados em todas as emissões concluídas.

prompt_tokens
prompt_tokens integer

O número de tokens nos prompts fornecidos para o pedido de conclusão.

total_tokens
total_tokens integer

O número total de tokens processados para o pedido e resposta de conclusão.