Azure AI Model Inference (Preview)

API de inferência de modelos para modelos implementados em Azure AI e Azure ML com endpoints serverless e auto-hospedados.

Este conector está disponível nos seguintes produtos e regiões:

Service	Classe	Regiões
Aplicações Lógicas	Standard	Todas as regiões do Logic Apps , exceto as seguintes: - Regiões Azure Government - Regiões Azure China - Departamento de Defesa dos EUA (DoD)

Entrar em contato
Nome	Microsoft
URL	https://support.microsoft.com

Metadados do conector
Editor	Microsoft Copilot Studio
Política de privacidade	https://privacy.microsoft.com/privacystatement
Sítio Web	https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Categorias	IA

O conector Azure AI Inference permite-lhe ligar ao seu próprio modelo a partir do Azure AI Studio

Pré-requisitos

Um modelo implementado no Azure AI Studio

Obtenha as suas credenciais

Para autenticar os seus pedidos de API, vai precisar do endpoint e da chave API do seu modelo.

Navegue até ao seu recurso no Azure Open AI Studio -> deployments. Depois, em Endpoint, o endpoint é o 'Target URI' e a chave está em 'Key'.

Operações suportadas

O conector Azure AI Inference suporta as seguintes operações:

GetModelInfo - Devolve a informação sobre o modelo implementado no endpoint

Parâmetros necessários:

* `api-version` - The version of the Inference API

GetChatCompletions - Cria uma resposta modelo para a conversa de chat dada

Parâmetros necessários:

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Valores padrão dos parâmetros opcionais:

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

A criar uma ligação

O conector suporta os seguintes tipos de autenticação:


Predefinição	Parâmetros para criar conexão.	Todas as regiões	Não compartilhável

Padrão

Aplicável: Todas as regiões

Parâmetros para criar conexão.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Descrição	Obrigatório
Azure model endpoint URL	cadeia (de caracteres)	Introduza a URL do endpoint do seu modelo implementado. Por exemplo: https://resource.openai.azure.com	Verdade
chave de API	securestring	Autorização para esta API	Verdade

Limites de Limitação

Name	Chamadas	Período de Renovação
Chamadas de API por conexão	100	60 segundos

Ações

Cria uma resposta modelo para a conversa de chat dada	Cria um modelo de resposta para determinada conversa de chat.
Devolve a informação sobre o modelo implementado no endpoint	Devolve informação sobre o modelo de IA. O método faz uma chamada REST API para a `/info` rota no ponto final indicado. Este método só funciona quando se utiliza API Serverless ou endpoint de Computação Gerida. Não funciona para endpoints GitHub Models ou Azure OpenAI.

Cria uma resposta modelo para a conversa de chat dada

ID da Operação:: GetChatCompletions

Cria um modelo de resposta para determinada conversa de chat.

Parâmetros

Name	Chave	Necessário	Tipo	Description
conteúdo	content	True	string	O conteúdo da mensagem do sistema.
função	role	True	string	O papel do autor das mensagens, neste caso `system`.
Nome	name		string	Um nome opcional para o participante. Fornece as informações do modelo para diferenciar entre participantes da mesma função.
penalização de frequência	frequency_penalty		float	Um valor que influencia a probabilidade de os tokens gerados aparecerem com base na sua frequência cumulativa no texto gerado. Os valores positivos tornarão os tokens menos prováveis de aparecer à medida que sua frequência aumenta e diminuem a probabilidade de o modelo repetir as mesmas declarações literalmente. O alcance suportado é [-2, 2].
fluxo	stream		boolean	Um valor que indica se as conclusões do chat devem ser transmitidas para este pedido.
penalização por presença	presence_penalty		float	Um valor que influencia a probabilidade de os tokens gerados aparecerem com base na sua presença existente no texto gerado. Valores positivos tornarão os tokens menos prováveis de aparecer quando já existem e aumentarão a probabilidade do modelo de gerar novos tópicos. O alcance suportado é [-2, 2].
temperatura	temperature		float	A temperatura de amostragem a ser usada que controla a aparente criatividade das finalizações geradas. Valores mais altos tornarão a saída mais aleatória, enquanto valores mais baixos tornarão os resultados mais focados e determinísticos. Não é recomendável modificar a temperatura e a top_p para a mesma solicitação de conclusão, pois a interação dessas duas configurações é difícil de prever. O alcance suportado é [0, 1].
top_p	top_p		float	Uma alternativa à amostragem com temperatura chamada amostragem de núcleo. Este valor faz com que o modelo considere os resultados dos tokens com a massa de probabilidade fornecida. Por exemplo, um valor de 0,15 fará com que apenas os tokens que compõem os 15% superiores da massa de probabilidade sejam considerados. Não é recomendável modificar a temperatura e a top_p para a mesma solicitação de conclusão, pois a interação dessas duas configurações é difícil de prever. O alcance suportado é [0, 1].
máximo de tokens	max_tokens		integer	O número máximo de tokens a serem gerados.
tipo	type		string	Deve ser um dos `text` ou `json_object`.
pare	stop		array of string	Uma coleção de sequências textuais que terminam a geração de completões.
tipo	type	True	string	O tipo da ferramenta. Atualmente, apenas `function` é suportado.
descrição	description		string	Uma descrição do que a função faz. O modelo utilizará esta descrição ao selecionar a função e interpretar os seus parâmetros.
Nome	name	True	string	O nome da função a ser chamada.
parâmetros	parameters		object	Os parâmetros que as funções aceitam, descritos como um objeto de esquema JSON.
seed	seed		integer	Se especificado, o sistema fará o melhor esforço para amostrar deterministicamente de modo que pedidos repetidos com a mesma seed e parâmetros devolvam o mesmo resultado. O determinismo não é garantido.
modelo	model		string	ID do modelo de IA específico a utilizar, se houver mais do que um modelo disponível no endpoint.
A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".	api-version	True	string	A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".
Controla o que acontece se um parâmetro desconhecido for ultrapassado.	extra-parameters		string	Controla o que acontece se parâmetros adicionais, não definidos pela API REST, forem passados no payload de pedido JSON. Isto define o cabeçalho `extra-parameters`do pedido HTTP . erro - O serviço dará erro se detetar parâmetros extra na carga útil do pedido. Este é o padrão padrão do serviço. drop - O serviço irá ignorar (eliminar) parâmetros extra na carga útil do pedido. Só transmite os parâmetros conhecidos ao modelo de IA de back-end. pass-through - O serviço irá passar parâmetros extra para o modelo de IA do back-end.
Nome do deployment para onde quer encaminhar o pedido.	azureml-model-deployment		string	Nome do deployment para onde quer encaminhar o pedido. Suportado para endpoints que suportam múltiplas implementações.

Devoluções

Representa uma resposta de conclusão do chat retornada pelo modelo, com base na entrada fornecida.

Corpo: CreateChatCompletionResponse

Devolve a informação sobre o modelo implementado no endpoint

ID da Operação:: GetModelInfo

Devolve informação sobre o modelo de IA. O método faz uma chamada REST API para a /info rota no ponto final indicado. Este método só funciona quando se utiliza API Serverless ou endpoint de Computação Gerida. Não funciona para endpoints GitHub Models ou Azure OpenAI.

Parâmetros

Name	Chave	Necessário	Tipo	Description
A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".	api-version	True	string	A versão da API no formato "YYY-MM-DD" ou "YYY-MM-DD-preview".
Nome do deployment para onde quer encaminhar o pedido.	azureml-model-deployment		string	Nome do deployment para onde quer encaminhar o pedido. Suportado para endpoints que suportam múltiplas implementações.

Devoluções

Representa alguma informação básica sobre o modelo de IA.

Corpo: ModelInfo

Definições

ModelInfo

Representa alguma informação básica sobre o modelo de IA.

Name	Caminho	Tipo	Description
model_name	model_name	string	O nome do modelo de IA.
	model_type	string	O tipo de modelo de IA. Um identificador único para o perfil.
model_provider_name	model_provider_name	string	O nome do fornecedor do modelo.
capabilities	capabilities

ChatCompletionMessageToolCalls

As chamadas de ferramenta geradas pelo modelo, como chamadas de função.

Name	Caminho	Tipo	Description
Itens		ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Name	Caminho	Tipo	Description
id	id	string	O identificador da chamada da ferramenta.
tipo	type	string	O tipo da ferramenta. Atualmente, apenas `function` é suportado.
Nome	function.name	string	O nome da função a ser chamada.
arguments	function.arguments	string	Os argumentos com os quais chamar a função, conforme gerado pelo modelo no formato JSON. Observe que o modelo nem sempre gera JSON válido e pode alucinar parâmetros não definidos pelo seu esquema de função. Valide os argumentos em seu código antes de chamar sua função.

ChatCompletionResponseMessage

Uma mensagem de conclusão do chat gerada pelo modelo.

Name	Caminho	Tipo	Description
conteúdo	content	string	O conteúdo da mensagem.
tool_calls	tool_calls	ChatCompletionMessageToolCalls	As chamadas de ferramenta geradas pelo modelo, como chamadas de função.
função	role	string	O papel do autor desta mensagem.

CreateChatCompletionResponse

Representa uma resposta de conclusão do chat retornada pelo modelo, com base na entrada fornecida.

Name	Caminho	Tipo	Description
id	id	string	Um identificador único associado a esta conversa completa a resposta.
choices	choices	array of object	Uma lista de opções de conclusão de chat. Pode ser mais de um se `n` for maior que 1.
	choices.finish_reason	string	A razão pela qual o modelo parou de gerar tokens. Isto acontecerá `stop` se o modelo atingiu um ponto de paragem natural ou uma sequência de paragens fornecida,`length` se o número máximo de tokens especificado no pedido foi atingido,`content_filter` se o conteúdo foi omitido devido a um flag dos nossos filtros de conteúdo, se`tool_calls` o modelo chamou uma ferramenta.
content_filter_result	choices.content_filter_result
indexar	choices.index	integer	O índice ordenado associado a esta opção de conclusão de conversa.
mensagem	choices.message	ChatCompletionResponseMessage	Uma mensagem de conclusão do chat gerada pelo modelo.
criado	created	integer	O primeiro carimbo temporal associado à atividade de geração para esta resposta de completação representou-se como segundos desde o início da época Unix das 00:00 a 1 de janeiro de 1970.
modelo	model	string	O modelo usado para a conclusão do chat.
objecto	object	string	O tipo de objeto, que é sempre `chat.completion`.
utilização	usage	CompletionUsage	Representação das contagens de tokens processadas para um pedido de completação. As contagens consideram todos os tokens através de prompts, escolhas, alternativas de escolha, gerações best_of e outros consumidores.

CompletionUsage

Representação das contagens de tokens processadas para um pedido de completação. As contagens consideram todos os tokens através de prompts, escolhas, alternativas de escolha, gerações best_of e outros consumidores.

Name	Caminho	Tipo	Description
completion_tokens	completion_tokens	integer	O número de tokens gerados em todas as emissões concluídas.
prompt_tokens	prompt_tokens	integer	O número de tokens nos prompts fornecidos para o pedido de conclusão.
total_tokens	total_tokens	integer	O número total de tokens processados para o pedido e resposta de conclusão.

Partilhar via

Azure AI Model Inference (Preview)

Pré-requisitos

Obtenha as suas credenciais

Operações suportadas

A criar uma ligação

Padrão

Limites de Limitação

Ações

Cria uma resposta modelo para a conversa de chat dada

Parâmetros

Devoluções

Devolve a informação sobre o modelo implementado no endpoint

Parâmetros

Devoluções

Definições

ModelInfo

ChatCompletionMessageToolCalls

ChatCompletionMessageToolCall

ChatCompletionResponseMessage

CreateChatCompletionResponse

CompletionUsage