Inferência de modelo de IA do Azure (versão prévia)
API de inferência de modelo para modelos implantados na IA do Azure e no Azure ML com pontos de extremidade auto-hospedados e sem servidor.
Esse conector está disponível nos seguintes produtos e regiões:
| Service | Classe | Regions |
|---|---|---|
| Aplicativos Lógicos | Standard | Todas as regiões dos Aplicativos Lógicos , exceto as seguintes: – Azure Government regiões - Azure regiões da China - Departamento de Defesa dos EUA (DoD) |
| Contato | |
|---|---|
| Nome | Microsoft |
| URL | https://support.microsoft.com |
| Metadados do conector | |
|---|---|
| Publicador | Microsoft Copilot Studio |
| Política de privacidade | https://privacy.microsoft.com/privacystatement |
| Site | https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api |
| Categorias | IA |
O conector de Inferência de IA do Azure permite que você se conecte ao seu próprio modelo do azure ai studio
Pré-requisitos
- Um modelo implantado no azure ai studio
Obter suas credenciais
Para autenticar suas solicitações de API, você precisará do ponto de extremidade e da chave de api do seu modelo.
Navegue até o recurso no azure open ai studio –> implantações. Em seguida, no ponto de extremidade, o ponto de extremidade é o 'URI de destino' e a chave está em 'Chave'.
Operações com suporte
O conector de Inferência de IA do Azure dá suporte às seguintes operações:
- GetModelInfo – Retorna as informações sobre o modelo implantado no ponto de extremidade
Parâmetros requeridos:
* `api-version` - The version of the Inference API
- GetChatCompletions – Cria uma resposta de modelo para a conversa de chat fornecida
Parâmetros requeridos:
* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models
Valores padrão de parâmetros opcionais:
* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1
Criando uma conexão
O conector dá suporte aos seguintes tipos de autenticação:
| Default | Parâmetros para criar conexão. | Todas as regiões | Não compartilhável |
Padrão
Aplicável: todas as regiões
Parâmetros para criar conexão.
Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Descrição | Obrigatório |
|---|---|---|---|
| URL do ponto de extremidade do modelo do Azure | cadeia | Insira a URL do ponto de extremidade do modelo implantado. Por exemplo: https://resource.openai.azure.com | Verdade |
| chave de API | secureString | Autorização para essa API | Verdade |
Limitações
| Nome | Chamadas | Período de renovação |
|---|---|---|
| Chamadas à API por conexão | 100 | 60 segundos |
Ações
| Cria uma resposta de modelo para a conversa de chat fornecida |
Cria uma resposta de modelo para a conversa de chat fornecida. |
| Retorna as informações sobre o modelo implantado no ponto de extremidade |
Retorna informações sobre o modelo de IA. O método faz uma chamada à API REST para a |
Cria uma resposta de modelo para a conversa de chat fornecida
Cria uma resposta de modelo para a conversa de chat fornecida.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
conteúdo
|
content | True | string |
O conteúdo da mensagem do sistema. |
|
função
|
role | True | string |
A função do autor das mensagens, nesse caso, |
|
nome
|
name | string |
Um nome opcional para o participante. Fornece as informações de modelo para diferenciar entre os participantes da mesma função. |
|
|
frequency_penalty
|
frequency_penalty | float |
Um valor que influencia a probabilidade de tokens gerados aparecerem com base em sua frequência cumulativa no texto gerado. Os valores positivos tornarão os tokens menos propensos a aparecer à medida que a frequência aumentar e diminuir a probabilidade de o modelo repetir as mesmas instruções verbatim. O intervalo com suporte é [-2, 2]. |
|
|
fluxo
|
stream | boolean |
Um valor que indica se as conclusões de chat devem ser transmitidas para essa solicitação. |
|
|
penalidade_de_presença
|
presence_penalty | float |
Um valor que influencia a probabilidade de tokens gerados aparecerem com base em sua presença existente no texto gerado. Valores positivos tornarão os tokens menos propensos a aparecer quando já existirem e aumentarão a probabilidade do modelo gerar novos tópicos. O intervalo com suporte é [-2, 2]. |
|
|
temperatura
|
temperature | float |
A temperatura de amostragem a ser usada que controla a criatividade aparente das conclusões geradas. Valores mais altos tornarão a saída mais aleatória, enquanto valores mais baixos tornarão os resultados mais focados e determinísticos. Não é recomendável modificar a temperatura e top_p para a mesma solicitação de conclusão que a interação dessas duas configurações é difícil de prever. O intervalo com suporte é [0, 1]. |
|
|
top_p
|
top_p | float |
Uma alternativa à amostragem com temperatura chamada amostragem de núcleo. Esse valor faz com que o modelo considere os resultados dos tokens com a massa de probabilidade fornecida. Por exemplo, um valor de 0,15 fará com que apenas os tokens que compõem os 15 principais% de massa de probabilidade sejam considerados. Não é recomendável modificar a temperatura e top_p para a mesma solicitação de conclusão que a interação dessas duas configurações é difícil de prever. O intervalo com suporte é [0, 1]. |
|
|
número máximo de tokens
|
max_tokens | integer |
O número máximo de tokens a serem gerados. |
|
|
tipo
|
type | string |
Deve ser um de |
|
|
parar
|
stop | array of string |
Uma coleção de sequências textuais que encerrará a geração de conclusões. |
|
|
tipo
|
type | True | string |
O tipo da ferramenta. Atualmente, há suporte apenas para |
|
descrição
|
description | string |
Uma descrição do que a função faz. O modelo usará essa descrição ao selecionar a função e interpretar seus parâmetros. |
|
|
nome
|
name | True | string |
O nome da função a ser chamada. |
|
parâmetros
|
parameters | object |
Os parâmetros aceitos pelas funções, descritos como um objeto de esquema JSON. |
|
|
seed
|
seed | integer |
Se especificado, o sistema fará um esforço melhor para amostrar deterministicamente, de modo que solicitações repetidas com a mesma semente e parâmetros devem retornar o mesmo resultado. O determinismo não é garantido. |
|
|
modelo
|
model | string |
ID do modelo de IA específico a ser usado, se mais de um modelo estiver disponível no ponto de extremidade. |
|
|
A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".
|
api-version | True | string |
A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview". |
|
Controla o que acontece se um parâmetro desconhecido for passado.
|
extra-parameters | string |
Controla o que acontece se parâmetros extras, indefinidos pela API REST, forem passados no conteúdo da solicitação JSON. Isso define o cabeçalho |
|
|
Nome da implantação para a qual você deseja rotear a solicitação.
|
azureml-model-deployment | string |
Nome da implantação para a qual você deseja rotear a solicitação. Com suporte para pontos de extremidade que dão suporte a várias implantações. |
Retornos
Representa uma resposta de conclusão de chat retornada pelo modelo, com base na entrada fornecida.
Retorna as informações sobre o modelo implantado no ponto de extremidade
Retorna informações sobre o modelo de IA. O método faz uma chamada à API REST para a /info rota no ponto de extremidade especificado. Esse método só funcionará ao usar a API sem servidor ou o ponto de extremidade de Computação Gerenciada. Ele não funcionará para o ponto de extremidade dos Modelos do GitHub ou para o ponto de extremidade do Azure OpenAI.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview".
|
api-version | True | string |
A versão da API no formato "YYYY-MM-DD" ou "YYYYY-MM-DD-preview". |
|
Nome da implantação para a qual você deseja rotear a solicitação.
|
azureml-model-deployment | string |
Nome da implantação para a qual você deseja rotear a solicitação. Com suporte para pontos de extremidade que dão suporte a várias implantações. |
Retornos
Representa algumas informações básicas sobre o modelo de IA.
- Corpo
- ModelInfo
Definições
ModelInfo
Representa algumas informações básicas sobre o modelo de IA.
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
model_name
|
model_name | string |
O nome do modelo de IA. |
|
|
model_type | string |
O tipo do modelo de IA. Um identificador exclusivo para o perfil. |
|
model_provider_name
|
model_provider_name | string |
O nome do provedor de modelo. |
|
capabilities
|
capabilities |
ChatCompletionMessageToolCalls
As chamadas de ferramenta geradas pelo modelo, como chamadas de função.
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
Itens
|
ChatCompletionMessageToolCall |
ChatCompletionMessageToolCall
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
id
|
id | string |
A ID da chamada da ferramenta. |
|
tipo
|
type | string |
O tipo da ferramenta. Atualmente, há suporte apenas para |
|
nome
|
function.name | string |
O nome da função a ser chamada. |
|
argumentos
|
function.arguments | string |
Os argumentos com os quais chamar a função, conforme gerados pelo modelo no formato JSON. O modelo nem sempre gera JSON válido, e pode alucinar parâmetros não definidos pelo esquema de função. Valide os argumentos no código antes de chamar a sua função. |
ChatCompletionResponseMessage
Uma mensagem de conclusão de chat gerada pelo modelo.
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
conteúdo
|
content | string |
O conteúdo da mensagem. |
|
tool_calls
|
tool_calls | ChatCompletionMessageToolCalls |
As chamadas de ferramenta geradas pelo modelo, como chamadas de função. |
|
função
|
role | string |
A função do autor dessa mensagem. |
CreateChatCompletionResponse
Representa uma resposta de conclusão de chat retornada pelo modelo, com base na entrada fornecida.
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
id
|
id | string |
Um identificador exclusivo associado a essa resposta de conclusão de chat. |
|
opções
|
choices | array of object |
Uma lista de opções de conclusão de chat. Pode ser mais de um se |
|
|
choices.finish_reason | string |
O motivo pelo qual o modelo parou de gerar tokens. Isso será |
|
content_filter_result
|
choices.content_filter_result | ||
|
indexar
|
choices.index | integer |
O índice ordenado associado a essa opção de conclusões de chat. |
|
mensagem
|
choices.message | ChatCompletionResponseMessage |
Uma mensagem de conclusão de chat gerada pelo modelo. |
|
criado
|
created | integer |
O primeiro carimbo de data/hora associado à atividade de geração para essa resposta de conclusões, representado como segundos desde o início da época unix de 00:00 em 1 de janeiro de 1970. |
|
modelo
|
model | string |
O modelo usado para a conclusão do chat. |
|
objeto
|
object | string |
O tipo de objeto, que é sempre |
|
uso
|
usage | CompletionUsage |
Representação das contagens de tokens processadas para uma solicitação de conclusão. As contagens consideram todos os tokens entre prompts, opções, alternativas de escolha, best_of gerações e outros consumidores. |
CompletionUsage
Representação das contagens de tokens processadas para uma solicitação de conclusão. As contagens consideram todos os tokens entre prompts, opções, alternativas de escolha, best_of gerações e outros consumidores.
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
completion_tokens
|
completion_tokens | integer |
O número de tokens gerados em todas as emissões de conclusão. |
|
prompt_tokens
|
prompt_tokens | integer |
O número de tokens nos prompts fornecidos para a solicitação de conclusão. |
|
total_tokens
|
total_tokens | integer |
O número total de tokens processados para a solicitação e a resposta de conclusões. |