Inferência de modelo de IA do Azure (versão prévia)

API de inferência de modelo para modelos implantados na IA do Azure e no Azure ML com pontos de extremidade auto-hospedados e sem servidor.

Esse conector está disponível nos seguintes produtos e regiões:

Service	Classe	Regions
Aplicativos Lógicos	Standard	Todas as regiões dos Aplicativos Lógicos , exceto as seguintes: – Azure Government regiões - Azure regiões da China - Departamento de Defesa dos EUA (DoD)

Contato
Nome	Microsoft
URL	https://support.microsoft.com

Metadados do conector
Publicador	Microsoft Copilot Studio
Política de privacidade	https://privacy.microsoft.com/privacystatement
Site	https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Categorias	IA

O conector de Inferência de IA do Azure permite que você se conecte ao seu próprio modelo do azure ai studio

Pré-requisitos

Um modelo implantado no azure ai studio

Obter suas credenciais

Para autenticar suas solicitações de API, você precisará do ponto de extremidade e da chave de api do seu modelo.

Navegue até o recurso no azure open ai studio –> implantações. Em seguida, no ponto de extremidade, o ponto de extremidade é o 'URI de destino' e a chave está em 'Chave'.

Operações com suporte

O conector de Inferência de IA do Azure dá suporte às seguintes operações:

GetModelInfo – Retorna as informações sobre o modelo implantado no ponto de extremidade

Parâmetros requeridos:

* `api-version` - The version of the Inference API

GetChatCompletions – Cria uma resposta de modelo para a conversa de chat fornecida

Parâmetros requeridos:

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Valores padrão de parâmetros opcionais:

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

Criando uma conexão

O conector dá suporte aos seguintes tipos de autenticação:


Default	Parâmetros para criar conexão.	Todas as regiões	Não compartilhável

Padrão

Aplicável: todas as regiões

Parâmetros para criar conexão.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Descrição	Obrigatório
URL do ponto de extremidade do modelo do Azure	cadeia	Insira a URL do ponto de extremidade do modelo implantado. Por exemplo: https://resource.openai.azure.com	Verdade
chave de API	secureString	Autorização para essa API	Verdade

Limitações

Nome	Chamadas	Período de renovação
Chamadas à API por conexão	100	60 segundos

Ações

Cria uma resposta de modelo para a conversa de chat fornecida	Cria uma resposta de modelo para a conversa de chat fornecida.
Retorna as informações sobre o modelo implantado no ponto de extremidade	Retorna informações sobre o modelo de IA. O método faz uma chamada à API REST para a `/info` rota no ponto de extremidade especificado. Esse método só funcionará ao usar a API sem servidor ou o ponto de extremidade de Computação Gerenciada. Ele não funcionará para o ponto de extremidade dos Modelos do GitHub ou para o ponto de extremidade do Azure OpenAI.

Cria uma resposta de modelo para a conversa de chat fornecida

ID da operação:: GetChatCompletions

Cria uma resposta de modelo para a conversa de chat fornecida.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
conteúdo	content	True	string	O conteúdo da mensagem do sistema.
função	role	True	string	A função do autor das mensagens, nesse caso, `system`.
nome	name		string	Um nome opcional para o participante. Fornece as informações de modelo para diferenciar entre os participantes da mesma função.
frequency_penalty	frequency_penalty		float	Um valor que influencia a probabilidade de tokens gerados aparecerem com base em sua frequência cumulativa no texto gerado. Os valores positivos tornarão os tokens menos propensos a aparecer à medida que a frequência aumentar e diminuir a probabilidade de o modelo repetir as mesmas instruções verbatim. O intervalo com suporte é [-2, 2].
fluxo	stream		boolean	Um valor que indica se as conclusões de chat devem ser transmitidas para essa solicitação.
penalidade_de_presença	presence_penalty		float	Um valor que influencia a probabilidade de tokens gerados aparecerem com base em sua presença existente no texto gerado. Valores positivos tornarão os tokens menos propensos a aparecer quando já existirem e aumentarão a probabilidade do modelo gerar novos tópicos. O intervalo com suporte é [-2, 2].
temperatura	temperature		float	A temperatura de amostragem a ser usada que controla a criatividade aparente das conclusões geradas. Valores mais altos tornarão a saída mais aleatória, enquanto valores mais baixos tornarão os resultados mais focados e determinísticos. Não é recomendável modificar a temperatura e top_p para a mesma solicitação de conclusão que a interação dessas duas configurações é difícil de prever. O intervalo com suporte é [0, 1].
top_p	top_p		float	Uma alternativa à amostragem com temperatura chamada amostragem de núcleo. Esse valor faz com que o modelo considere os resultados dos tokens com a massa de probabilidade fornecida. Por exemplo, um valor de 0,15 fará com que apenas os tokens que compõem os 15 principais% de massa de probabilidade sejam considerados. Não é recomendável modificar a temperatura e top_p para a mesma solicitação de conclusão que a interação dessas duas configurações é difícil de prever. O intervalo com suporte é [0, 1].
número máximo de tokens	max_tokens		integer	O número máximo de tokens a serem gerados.
tipo	type		string	Deve ser um de `text` ou `json_object`.
parar	stop		array of string	Uma coleção de sequências textuais que encerrará a geração de conclusões.
tipo	type	True	string	O tipo da ferramenta. Atualmente, há suporte apenas para `function`.
descrição	description		string	Uma descrição do que a função faz. O modelo usará essa descrição ao selecionar a função e interpretar seus parâmetros.
nome	name	True	string	O nome da função a ser chamada.
parâmetros	parameters		object	Os parâmetros aceitos pelas funções, descritos como um objeto de esquema JSON.
seed	seed		integer	Se especificado, o sistema fará um esforço melhor para amostrar deterministicamente, de modo que solicitações repetidas com a mesma semente e parâmetros devem retornar o mesmo resultado. O determinismo não é garantido.
modelo	model		string	ID do modelo de IA específico a ser usado, se mais de um modelo estiver disponível no ponto de extremidade.
A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".	api-version	True	string	A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".
Controla o que acontece se um parâmetro desconhecido for passado.	extra-parameters		string	Controla o que acontece se parâmetros extras, indefinidos pela API REST, forem passados no conteúdo da solicitação JSON. Isso define o cabeçalho `extra-parameters`da solicitação HTTP. erro – O serviço errou se detectou parâmetros extras no conteúdo da solicitação. Esse é o padrão do serviço. drop - O serviço ignorará (soltar) parâmetros extras no conteúdo da solicitação. Ele só passará os parâmetros conhecidos para o modelo de IA de back-end. passagem – o serviço passará parâmetros extras para o modelo de IA de back-end.
Nome da implantação para a qual você deseja rotear a solicitação.	azureml-model-deployment		string	Nome da implantação para a qual você deseja rotear a solicitação. Com suporte para pontos de extremidade que dão suporte a várias implantações.

Retornos

Representa uma resposta de conclusão de chat retornada pelo modelo, com base na entrada fornecida.

Corpo: CreateChatCompletionResponse

Retorna as informações sobre o modelo implantado no ponto de extremidade

ID da operação:: GetModelInfo

Retorna informações sobre o modelo de IA. O método faz uma chamada à API REST para a /info rota no ponto de extremidade especificado. Esse método só funcionará ao usar a API sem servidor ou o ponto de extremidade de Computação Gerenciada. Ele não funcionará para o ponto de extremidade dos Modelos do GitHub ou para o ponto de extremidade do Azure OpenAI.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".	api-version	True	string	A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".
Nome da implantação para a qual você deseja rotear a solicitação.	azureml-model-deployment		string	Nome da implantação para a qual você deseja rotear a solicitação. Com suporte para pontos de extremidade que dão suporte a várias implantações.

Retornos

Representa algumas informações básicas sobre o modelo de IA.

Corpo: ModelInfo

Definições

ModelInfo

Representa algumas informações básicas sobre o modelo de IA.

Nome	Caminho	Tipo	Description
model_name	model_name	string	O nome do modelo de IA.
	model_type	string	O tipo do modelo de IA. Um identificador exclusivo para o perfil.
model_provider_name	model_provider_name	string	O nome do provedor de modelo.
capabilities	capabilities

ChatCompletionMessageToolCalls

As chamadas de ferramenta geradas pelo modelo, como chamadas de função.

Nome	Caminho	Tipo	Description
Itens		ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Nome	Caminho	Tipo	Description
id	id	string	A ID da chamada da ferramenta.
tipo	type	string	O tipo da ferramenta. Atualmente, há suporte apenas para `function`.
nome	function.name	string	O nome da função a ser chamada.
argumentos	function.arguments	string	Os argumentos com os quais chamar a função, conforme gerados pelo modelo no formato JSON. O modelo nem sempre gera JSON válido, e pode alucinar parâmetros não definidos pelo esquema de função. Valide os argumentos no código antes de chamar a sua função.

ChatCompletionResponseMessage

Uma mensagem de conclusão de chat gerada pelo modelo.

Nome	Caminho	Tipo	Description
conteúdo	content	string	O conteúdo da mensagem.
tool_calls	tool_calls	ChatCompletionMessageToolCalls	As chamadas de ferramenta geradas pelo modelo, como chamadas de função.
função	role	string	A função do autor dessa mensagem.

CreateChatCompletionResponse

Representa uma resposta de conclusão de chat retornada pelo modelo, com base na entrada fornecida.

Nome	Caminho	Tipo	Description
id	id	string	Um identificador exclusivo associado a essa resposta de conclusão de chat.
opções	choices	array of object	Uma lista de opções de conclusão de chat. Pode ser mais de um se `n` for maior que 1.
	choices.finish_reason	string	O motivo pelo qual o modelo parou de gerar tokens. Isso será `stop` se o modelo atingir um ponto de parada natural ou uma sequência de interrupção fornecida,`length` se o número máximo de tokens especificados na solicitação tiver sido atingido,`content_filter` se o conteúdo tiver sido omitido devido a um sinalizador de nossos filtros de conteúdo,`tool_calls` se o modelo chamar uma ferramenta.
content_filter_result	choices.content_filter_result
indexar	choices.index	integer	O índice ordenado associado a essa opção de conclusões de chat.
mensagem	choices.message	ChatCompletionResponseMessage	Uma mensagem de conclusão de chat gerada pelo modelo.
criado	created	integer	O primeiro carimbo de data/hora associado à atividade de geração para essa resposta de conclusões, representado como segundos desde o início da época unix de 00:00 em 1 de janeiro de 1970.
modelo	model	string	O modelo usado para a conclusão do chat.
objeto	object	string	O tipo de objeto, que é sempre `chat.completion`.
uso	usage	CompletionUsage	Representação das contagens de tokens processadas para uma solicitação de conclusão. As contagens consideram todos os tokens entre prompts, opções, alternativas de escolha, best_of gerações e outros consumidores.

CompletionUsage

Representação das contagens de tokens processadas para uma solicitação de conclusão. As contagens consideram todos os tokens entre prompts, opções, alternativas de escolha, best_of gerações e outros consumidores.

Nome	Caminho	Tipo	Description
completion_tokens	completion_tokens	integer	O número de tokens gerados em todas as emissões de conclusão.
prompt_tokens	prompt_tokens	integer	O número de tokens nos prompts fornecidos para a solicitação de conclusão.
total_tokens	total_tokens	integer	O número total de tokens processados para a solicitação e a resposta de conclusões.

Compartilhar via

Inferência de modelo de IA do Azure (versão prévia)

Pré-requisitos

Obter suas credenciais

Operações com suporte

Criando uma conexão

Padrão

Limitações

Ações

Cria uma resposta de modelo para a conversa de chat fornecida

Parâmetros

Retornos

Retorna as informações sobre o modelo implantado no ponto de extremidade

Parâmetros

Retornos

Definições

ModelInfo

ChatCompletionMessageToolCalls

ChatCompletionMessageToolCall

ChatCompletionResponseMessage

CreateChatCompletionResponse

CompletionUsage