Azure AI Model Inference (Preview)
API de inferência de modelos para modelos implementados em Azure AI e Azure ML com endpoints serverless e auto-hospedados.
Este conector está disponível nos seguintes produtos e regiões:
| Service | Classe | Regiões |
|---|---|---|
| Aplicações Lógicas | Standard | Todas as regiões do Logic Apps , exceto as seguintes: - Regiões Azure Government - Regiões Azure China - Departamento de Defesa dos EUA (DoD) |
| Entrar em contato | |
|---|---|
| Nome | Microsoft |
| URL | https://support.microsoft.com |
| Metadados do conector | |
|---|---|
| Editor | Microsoft Copilot Studio |
| Política de privacidade | https://privacy.microsoft.com/privacystatement |
| Sítio Web | https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api |
| Categorias | IA |
O conector Azure AI Inference permite-lhe ligar ao seu próprio modelo a partir do Azure AI Studio
Pré-requisitos
- Um modelo implementado no Azure AI Studio
Obtenha as suas credenciais
Para autenticar os seus pedidos de API, vai precisar do endpoint e da chave API do seu modelo.
Navegue até ao seu recurso no Azure Open AI Studio -> deployments. Depois, em Endpoint, o endpoint é o 'Target URI' e a chave está em 'Key'.
Operações suportadas
O conector Azure AI Inference suporta as seguintes operações:
- GetModelInfo - Devolve a informação sobre o modelo implementado no endpoint
Parâmetros necessários:
* `api-version` - The version of the Inference API
- GetChatCompletions - Cria uma resposta modelo para a conversa de chat dada
Parâmetros necessários:
* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models
Valores padrão dos parâmetros opcionais:
* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1
A criar uma ligação
O conector suporta os seguintes tipos de autenticação:
| Predefinição | Parâmetros para criar conexão. | Todas as regiões | Não compartilhável |
Padrão
Aplicável: Todas as regiões
Parâmetros para criar conexão.
Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Descrição | Obrigatório |
|---|---|---|---|
| Azure model endpoint URL | cadeia (de caracteres) | Introduza a URL do endpoint do seu modelo implementado. Por exemplo: https://resource.openai.azure.com | Verdade |
| chave de API | securestring | Autorização para esta API | Verdade |
Limites de Limitação
| Name | Chamadas | Período de Renovação |
|---|---|---|
| Chamadas de API por conexão | 100 | 60 segundos |
Ações
| Cria uma resposta modelo para a conversa de chat dada |
Cria um modelo de resposta para determinada conversa de chat. |
| Devolve a informação sobre o modelo implementado no endpoint |
Devolve informação sobre o modelo de IA. O método faz uma chamada REST API para a |
Cria uma resposta modelo para a conversa de chat dada
Cria um modelo de resposta para determinada conversa de chat.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
conteúdo
|
content | True | string |
O conteúdo da mensagem do sistema. |
|
função
|
role | True | string |
O papel do autor das mensagens, neste caso |
|
Nome
|
name | string |
Um nome opcional para o participante. Fornece as informações do modelo para diferenciar entre participantes da mesma função. |
|
|
penalização de frequência
|
frequency_penalty | float |
Um valor que influencia a probabilidade de os tokens gerados aparecerem com base na sua frequência cumulativa no texto gerado. Os valores positivos tornarão os tokens menos prováveis de aparecer à medida que sua frequência aumenta e diminuem a probabilidade de o modelo repetir as mesmas declarações literalmente. O alcance suportado é [-2, 2]. |
|
|
fluxo
|
stream | boolean |
Um valor que indica se as conclusões do chat devem ser transmitidas para este pedido. |
|
|
penalização por presença
|
presence_penalty | float |
Um valor que influencia a probabilidade de os tokens gerados aparecerem com base na sua presença existente no texto gerado. Valores positivos tornarão os tokens menos prováveis de aparecer quando já existem e aumentarão a probabilidade do modelo de gerar novos tópicos. O alcance suportado é [-2, 2]. |
|
|
temperatura
|
temperature | float |
A temperatura de amostragem a ser usada que controla a aparente criatividade das finalizações geradas. Valores mais altos tornarão a saída mais aleatória, enquanto valores mais baixos tornarão os resultados mais focados e determinísticos. Não é recomendável modificar a temperatura e a top_p para a mesma solicitação de conclusão, pois a interação dessas duas configurações é difícil de prever. O alcance suportado é [0, 1]. |
|
|
top_p
|
top_p | float |
Uma alternativa à amostragem com temperatura chamada amostragem de núcleo. Este valor faz com que o modelo considere os resultados dos tokens com a massa de probabilidade fornecida. Por exemplo, um valor de 0,15 fará com que apenas os tokens que compõem os 15% superiores da massa de probabilidade sejam considerados. Não é recomendável modificar a temperatura e a top_p para a mesma solicitação de conclusão, pois a interação dessas duas configurações é difícil de prever. O alcance suportado é [0, 1]. |
|
|
máximo de tokens
|
max_tokens | integer |
O número máximo de tokens a serem gerados. |
|
|
tipo
|
type | string |
Deve ser um dos |
|
|
pare
|
stop | array of string |
Uma coleção de sequências textuais que terminam a geração de completões. |
|
|
tipo
|
type | True | string |
O tipo da ferramenta. Atualmente, apenas |
|
descrição
|
description | string |
Uma descrição do que a função faz. O modelo utilizará esta descrição ao selecionar a função e interpretar os seus parâmetros. |
|
|
Nome
|
name | True | string |
O nome da função a ser chamada. |
|
parâmetros
|
parameters | object |
Os parâmetros que as funções aceitam, descritos como um objeto de esquema JSON. |
|
|
seed
|
seed | integer |
Se especificado, o sistema fará o melhor esforço para amostrar deterministicamente de modo que pedidos repetidos com a mesma seed e parâmetros devolvam o mesmo resultado. O determinismo não é garantido. |
|
|
modelo
|
model | string |
ID do modelo de IA específico a utilizar, se houver mais do que um modelo disponível no endpoint. |
|
|
A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".
|
api-version | True | string |
A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview". |
|
Controla o que acontece se um parâmetro desconhecido for ultrapassado.
|
extra-parameters | string |
Controla o que acontece se parâmetros adicionais, não definidos pela API REST, forem passados no payload de pedido JSON. Isto define o cabeçalho |
|
|
Nome do deployment para onde quer encaminhar o pedido.
|
azureml-model-deployment | string |
Nome do deployment para onde quer encaminhar o pedido. Suportado para endpoints que suportam múltiplas implementações. |
Devoluções
Representa uma resposta de conclusão do chat retornada pelo modelo, com base na entrada fornecida.
Devolve a informação sobre o modelo implementado no endpoint
Devolve informação sobre o modelo de IA. O método faz uma chamada REST API para a /info rota no ponto final indicado. Este método só funciona quando se utiliza API Serverless ou endpoint de Computação Gerida. Não funciona para endpoints GitHub Models ou Azure OpenAI.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".
|
api-version | True | string |
A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview". |
|
Nome do deployment para onde quer encaminhar o pedido.
|
azureml-model-deployment | string |
Nome do deployment para onde quer encaminhar o pedido. Suportado para endpoints que suportam múltiplas implementações. |
Devoluções
Representa alguma informação básica sobre o modelo de IA.
- Corpo
- ModelInfo
Definições
ModelInfo
Representa alguma informação básica sobre o modelo de IA.
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
model_name
|
model_name | string |
O nome do modelo de IA. |
|
|
model_type | string |
O tipo de modelo de IA. Um identificador único para o perfil. |
|
model_provider_name
|
model_provider_name | string |
O nome do fornecedor do modelo. |
|
capabilities
|
capabilities |
ChatCompletionMessageToolCalls
As chamadas de ferramenta geradas pelo modelo, como chamadas de função.
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
Itens
|
ChatCompletionMessageToolCall |
ChatCompletionMessageToolCall
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
id
|
id | string |
O identificador da chamada da ferramenta. |
|
tipo
|
type | string |
O tipo da ferramenta. Atualmente, apenas |
|
Nome
|
function.name | string |
O nome da função a ser chamada. |
|
arguments
|
function.arguments | string |
Os argumentos com os quais chamar a função, conforme gerado pelo modelo no formato JSON. Observe que o modelo nem sempre gera JSON válido e pode alucinar parâmetros não definidos pelo seu esquema de função. Valide os argumentos em seu código antes de chamar sua função. |
ChatCompletionResponseMessage
Uma mensagem de conclusão do chat gerada pelo modelo.
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
conteúdo
|
content | string |
O conteúdo da mensagem. |
|
tool_calls
|
tool_calls | ChatCompletionMessageToolCalls |
As chamadas de ferramenta geradas pelo modelo, como chamadas de função. |
|
função
|
role | string |
O papel do autor desta mensagem. |
CreateChatCompletionResponse
Representa uma resposta de conclusão do chat retornada pelo modelo, com base na entrada fornecida.
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
id
|
id | string |
Um identificador único associado a esta conversa completa a resposta. |
|
choices
|
choices | array of object |
Uma lista de opções de conclusão de chat. Pode ser mais de um se |
|
|
choices.finish_reason | string |
A razão pela qual o modelo parou de gerar tokens. Isto acontecerá |
|
content_filter_result
|
choices.content_filter_result | ||
|
indexar
|
choices.index | integer |
O índice ordenado associado a esta opção de conclusão de conversa. |
|
mensagem
|
choices.message | ChatCompletionResponseMessage |
Uma mensagem de conclusão do chat gerada pelo modelo. |
|
criado
|
created | integer |
O primeiro carimbo temporal associado à atividade de geração para esta resposta de completação representou-se como segundos desde o início da época Unix das 00:00 a 1 de janeiro de 1970. |
|
modelo
|
model | string |
O modelo usado para a conclusão do chat. |
|
objecto
|
object | string |
O tipo de objeto, que é sempre |
|
utilização
|
usage | CompletionUsage |
Representação das contagens de tokens processadas para um pedido de completação. As contagens consideram todos os tokens através de prompts, escolhas, alternativas de escolha, gerações best_of e outros consumidores. |
CompletionUsage
Representação das contagens de tokens processadas para um pedido de completação. As contagens consideram todos os tokens através de prompts, escolhas, alternativas de escolha, gerações best_of e outros consumidores.
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
completion_tokens
|
completion_tokens | integer |
O número de tokens gerados em todas as emissões concluídas. |
|
prompt_tokens
|
prompt_tokens | integer |
O número de tokens nos prompts fornecidos para o pedido de conclusão. |
|
total_tokens
|
total_tokens | integer |
O número total de tokens processados para o pedido e resposta de conclusão. |