Compartilhar via


Inferência de modelo de IA do Azure (versão prévia)

API de inferência de modelo para modelos implantados na IA do Azure e no Azure ML com pontos de extremidade auto-hospedados e sem servidor.

Esse conector está disponível nos seguintes produtos e regiões:

Service Classe Regions
Aplicativos Lógicos Standard Todas as regiões dos Aplicativos Lógicos , exceto as seguintes:
     – Azure Government regiões
     - Azure regiões da China
     - Departamento de Defesa dos EUA (DoD)
Contato
Nome Microsoft
URL https://support.microsoft.com
Metadados do conector
Publicador Microsoft Copilot Studio
Política de privacidade https://privacy.microsoft.com/privacystatement
Site https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Categorias IA

O conector de Inferência de IA do Azure permite que você se conecte ao seu próprio modelo do azure ai studio

Pré-requisitos

  • Um modelo implantado no azure ai studio

Obter suas credenciais

Para autenticar suas solicitações de API, você precisará do ponto de extremidade e da chave de api do seu modelo.

Navegue até o recurso no azure open ai studio –> implantações. Em seguida, no ponto de extremidade, o ponto de extremidade é o 'URI de destino' e a chave está em 'Chave'.

Operações com suporte

O conector de Inferência de IA do Azure dá suporte às seguintes operações:

  1. GetModelInfo – Retorna as informações sobre o modelo implantado no ponto de extremidade

Parâmetros requeridos:

* `api-version` - The version of the Inference API
  1. GetChatCompletions – Cria uma resposta de modelo para a conversa de chat fornecida

Parâmetros requeridos:

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Valores padrão de parâmetros opcionais:

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

Criando uma conexão

O conector dá suporte aos seguintes tipos de autenticação:

Default Parâmetros para criar conexão. Todas as regiões Não compartilhável

Padrão

Aplicável: todas as regiões

Parâmetros para criar conexão.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Descrição Obrigatório
URL do ponto de extremidade do modelo do Azure cadeia Insira a URL do ponto de extremidade do modelo implantado. Por exemplo: https://resource.openai.azure.com Verdade
chave de API secureString Autorização para essa API Verdade

Limitações

Nome Chamadas Período de renovação
Chamadas à API por conexão 100 60 segundos

Ações

Cria uma resposta de modelo para a conversa de chat fornecida

Cria uma resposta de modelo para a conversa de chat fornecida.

Retorna as informações sobre o modelo implantado no ponto de extremidade

Retorna informações sobre o modelo de IA. O método faz uma chamada à API REST para a /info rota no ponto de extremidade especificado. Esse método só funcionará ao usar a API sem servidor ou o ponto de extremidade de Computação Gerenciada. Ele não funcionará para o ponto de extremidade dos Modelos do GitHub ou para o ponto de extremidade do Azure OpenAI.

Cria uma resposta de modelo para a conversa de chat fornecida

Cria uma resposta de modelo para a conversa de chat fornecida.

Parâmetros

Nome Chave Obrigatório Tipo Description
conteúdo
content True string

O conteúdo da mensagem do sistema.

função
role True string

A função do autor das mensagens, nesse caso, system.

nome
name string

Um nome opcional para o participante. Fornece as informações de modelo para diferenciar entre os participantes da mesma função.

frequency_penalty
frequency_penalty float

Um valor que influencia a probabilidade de tokens gerados aparecerem com base em sua frequência cumulativa no texto gerado. Os valores positivos tornarão os tokens menos propensos a aparecer à medida que a frequência aumentar e diminuir a probabilidade de o modelo repetir as mesmas instruções verbatim. O intervalo com suporte é [-2, 2].

fluxo
stream boolean

Um valor que indica se as conclusões de chat devem ser transmitidas para essa solicitação.

penalidade_de_presença
presence_penalty float

Um valor que influencia a probabilidade de tokens gerados aparecerem com base em sua presença existente no texto gerado. Valores positivos tornarão os tokens menos propensos a aparecer quando já existirem e aumentarão a probabilidade do modelo gerar novos tópicos. O intervalo com suporte é [-2, 2].

temperatura
temperature float

A temperatura de amostragem a ser usada que controla a criatividade aparente das conclusões geradas. Valores mais altos tornarão a saída mais aleatória, enquanto valores mais baixos tornarão os resultados mais focados e determinísticos. Não é recomendável modificar a temperatura e top_p para a mesma solicitação de conclusão que a interação dessas duas configurações é difícil de prever. O intervalo com suporte é [0, 1].

top_p
top_p float

Uma alternativa à amostragem com temperatura chamada amostragem de núcleo. Esse valor faz com que o modelo considere os resultados dos tokens com a massa de probabilidade fornecida. Por exemplo, um valor de 0,15 fará com que apenas os tokens que compõem os 15 principais% de massa de probabilidade sejam considerados. Não é recomendável modificar a temperatura e top_p para a mesma solicitação de conclusão que a interação dessas duas configurações é difícil de prever. O intervalo com suporte é [0, 1].

número máximo de tokens
max_tokens integer

O número máximo de tokens a serem gerados.

tipo
type string

Deve ser um de text ou json_object.

parar
stop array of string

Uma coleção de sequências textuais que encerrará a geração de conclusões.

tipo
type True string

O tipo da ferramenta. Atualmente, há suporte apenas para function.

descrição
description string

Uma descrição do que a função faz. O modelo usará essa descrição ao selecionar a função e interpretar seus parâmetros.

nome
name True string

O nome da função a ser chamada.

parâmetros
parameters object

Os parâmetros aceitos pelas funções, descritos como um objeto de esquema JSON.

seed
seed integer

Se especificado, o sistema fará um esforço melhor para amostrar deterministicamente, de modo que solicitações repetidas com a mesma semente e parâmetros devem retornar o mesmo resultado. O determinismo não é garantido.

modelo
model string

ID do modelo de IA específico a ser usado, se mais de um modelo estiver disponível no ponto de extremidade.

A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".
api-version True string

A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".

Controla o que acontece se um parâmetro desconhecido for passado.
extra-parameters string

Controla o que acontece se parâmetros extras, indefinidos pela API REST, forem passados no conteúdo da solicitação JSON. Isso define o cabeçalho extra-parametersda solicitação HTTP. erro – O serviço errou se detectou parâmetros extras no conteúdo da solicitação. Esse é o padrão do serviço. drop - O serviço ignorará (soltar) parâmetros extras no conteúdo da solicitação. Ele só passará os parâmetros conhecidos para o modelo de IA de back-end. passagem – o serviço passará parâmetros extras para o modelo de IA de back-end.

Nome da implantação para a qual você deseja rotear a solicitação.
azureml-model-deployment string

Nome da implantação para a qual você deseja rotear a solicitação. Com suporte para pontos de extremidade que dão suporte a várias implantações.

Retornos

Representa uma resposta de conclusão de chat retornada pelo modelo, com base na entrada fornecida.

Retorna as informações sobre o modelo implantado no ponto de extremidade

Retorna informações sobre o modelo de IA. O método faz uma chamada à API REST para a /info rota no ponto de extremidade especificado. Esse método só funcionará ao usar a API sem servidor ou o ponto de extremidade de Computação Gerenciada. Ele não funcionará para o ponto de extremidade dos Modelos do GitHub ou para o ponto de extremidade do Azure OpenAI.

Parâmetros

Nome Chave Obrigatório Tipo Description
A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".
api-version True string

A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".

Nome da implantação para a qual você deseja rotear a solicitação.
azureml-model-deployment string

Nome da implantação para a qual você deseja rotear a solicitação. Com suporte para pontos de extremidade que dão suporte a várias implantações.

Retornos

Representa algumas informações básicas sobre o modelo de IA.

Corpo
ModelInfo

Definições

ModelInfo

Representa algumas informações básicas sobre o modelo de IA.

Nome Caminho Tipo Description
model_name
model_name string

O nome do modelo de IA.

model_type string

O tipo do modelo de IA. Um identificador exclusivo para o perfil.

model_provider_name
model_provider_name string

O nome do provedor de modelo.

capabilities
capabilities

ChatCompletionMessageToolCalls

As chamadas de ferramenta geradas pelo modelo, como chamadas de função.

Nome Caminho Tipo Description
Itens
ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Nome Caminho Tipo Description
id
id string

A ID da chamada da ferramenta.

tipo
type string

O tipo da ferramenta. Atualmente, há suporte apenas para function.

nome
function.name string

O nome da função a ser chamada.

argumentos
function.arguments string

Os argumentos com os quais chamar a função, conforme gerados pelo modelo no formato JSON. O modelo nem sempre gera JSON válido, e pode alucinar parâmetros não definidos pelo esquema de função. Valide os argumentos no código antes de chamar a sua função.

ChatCompletionResponseMessage

Uma mensagem de conclusão de chat gerada pelo modelo.

Nome Caminho Tipo Description
conteúdo
content string

O conteúdo da mensagem.

tool_calls
tool_calls ChatCompletionMessageToolCalls

As chamadas de ferramenta geradas pelo modelo, como chamadas de função.

função
role string

A função do autor dessa mensagem.

CreateChatCompletionResponse

Representa uma resposta de conclusão de chat retornada pelo modelo, com base na entrada fornecida.

Nome Caminho Tipo Description
id
id string

Um identificador exclusivo associado a essa resposta de conclusão de chat.

opções
choices array of object

Uma lista de opções de conclusão de chat. Pode ser mais de um se n for maior que 1.

choices.finish_reason string

O motivo pelo qual o modelo parou de gerar tokens. Isso será stop se o modelo atingir um ponto de parada natural ou uma sequência de interrupção fornecida,length se o número máximo de tokens especificados na solicitação tiver sido atingido,content_filter se o conteúdo tiver sido omitido devido a um sinalizador de nossos filtros de conteúdo,tool_calls se o modelo chamar uma ferramenta.

content_filter_result
choices.content_filter_result
indexar
choices.index integer

O índice ordenado associado a essa opção de conclusões de chat.

mensagem
choices.message ChatCompletionResponseMessage

Uma mensagem de conclusão de chat gerada pelo modelo.

criado
created integer

O primeiro carimbo de data/hora associado à atividade de geração para essa resposta de conclusões, representado como segundos desde o início da época unix de 00:00 em 1 de janeiro de 1970.

modelo
model string

O modelo usado para a conclusão do chat.

objeto
object string

O tipo de objeto, que é sempre chat.completion.

uso
usage CompletionUsage

Representação das contagens de tokens processadas para uma solicitação de conclusão. As contagens consideram todos os tokens entre prompts, opções, alternativas de escolha, best_of gerações e outros consumidores.

CompletionUsage

Representação das contagens de tokens processadas para uma solicitação de conclusão. As contagens consideram todos os tokens entre prompts, opções, alternativas de escolha, best_of gerações e outros consumidores.

Nome Caminho Tipo Description
completion_tokens
completion_tokens integer

O número de tokens gerados em todas as emissões de conclusão.

prompt_tokens
prompt_tokens integer

O número de tokens nos prompts fornecidos para a solicitação de conclusão.

total_tokens
total_tokens integer

O número total de tokens processados para a solicitação e a resposta de conclusões.