Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
A inferência de modelo de IA do Azure é uma API que expõe um conjunto comum de recursos para modelos fundamentais e que pode ser usada por desenvolvedores para consumir previsões de um conjunto diversificado de modelos de maneira uniforme e consistente. Os desenvolvedores podem conversar com diferentes modelos implantados no portal do Azure AI Foundry sem alterar o código subjacente que estão usando.
Benefícios
Os modelos fundacionais, como os modelos linguísticos, registaram, de facto, progressos notáveis nos últimos anos. Esses avanços revolucionaram vários campos, incluindo processamento de linguagem natural e visão computacional, e habilitaram aplicativos como chatbots, assistentes virtuais e serviços de tradução de idiomas.
Embora os modelos fundamentais se destaquem em domínios específicos, eles carecem de um conjunto uniforme de recursos. Alguns modelos são melhores em tarefas específicas e, mesmo na mesma tarefa, alguns modelos podem abordar o problema de uma forma, enquanto outros de outra. Os desenvolvedores podem se beneficiar dessa diversidade usando o modelo certo para o trabalho certo permitindo-lhes:
- Melhore o desempenho em uma tarefa downstream específica.
- Use modelos mais eficientes para tarefas mais simples.
- Use modelos menores que podem ser executados mais rapidamente em tarefas específicas.
- Componha vários modelos para desenvolver experiências inteligentes.
Ter uma maneira uniforme de consumir modelos fundamentais permite que os desenvolvedores percebam todos esses benefícios sem sacrificar a portabilidade ou alterar o código subjacente.
Suporte ao SDK de inferência
O pacote Azure AI Inference permite que você consuma todos os modelos que dão suporte à API de inferência de modelo de IA do Azure e mude facilmente entre eles. O pacote Azure AI Inference faz parte do SDK do Azure AI Foundry.
| Idioma | Documentação | Embalagem | Exemplos |
|---|---|---|---|
| C# | de referência | azure-ai-inference (NuGet) | exemplos de C# |
| Java | de referência | azure-ai-inference (Maven) | exemplos de Java |
| Javascript | de referência | @azure/ai-inferência (npm) | exemplos de JavaScript |
| Píton | de referência | azure-ai-inference (PyPi) | exemplos de Python |
Capacidades
A seção a seguir descreve alguns dos recursos que a API expõe:
Modalidades
A API indica como os desenvolvedores podem consumir previsões para as seguintes modalidades:
- Obter informações: Retorna as informações sobre o modelo implantado sob o ponto de extremidade.
- Incorporação de texto: Cria um vetor de incorporação que representa o texto de entrada.
- Conclusão do bate-papo: cria um modelo de resposta para determinada conversa de bate-papo.
- Image embeddings: Cria um vetor de incorporação que representa o texto e a imagem de entrada.
Extensibilidade
A API de Inferência de Modelo de IA do Azure especifica um conjunto de modalidades e parâmetros que os modelos podem assinar. No entanto, alguns modelos podem ter outros recursos que os indicados pela API. Nesses casos, a API permite que o desenvolvedor os passe como parâmetros extras na carga útil.
Ao definir um cabeçalho extra-parameters: pass-through, a API tentará passar qualquer parâmetro desconhecido diretamente para o modelo subjacente. Se o modelo puder lidar com esse parâmetro, a solicitação será concluída.
O exemplo a seguir mostra uma solicitação que passa o parâmetro safe_prompt suportado por Mistral-Large, que não é especificado na API de Inferência de Modelo do Azure AI.
Pedido
POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json
extra-parameters: pass-through
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant"
},
{
"role": "user",
"content": "Explain Riemann's conjecture in 1 paragraph"
}
],
"temperature": 0,
"top_p": 1,
"response_format": { "type": "text" },
"safe_prompt": true
}
Observação
O valor padrão para extra-parameters é error que retorna um erro se um parâmetro extra for indicado na carga útil. Como alternativa, você pode definir extra-parameters: drop para descartar qualquer parâmetro desconhecido na solicitação. Use esse recurso caso você esteja enviando solicitações com parâmetros extras que você sabe que o modelo não suportará, mas deseja que a solicitação seja concluída de qualquer maneira. Um exemplo típico disso é a indicação de seed parâmetro.
Modelos com diferentes conjuntos de capacidades
A API de Inferência de Modelo de IA do Azure indica um conjunto geral de recursos, mas cada um dos modelos pode decidir implementá-los ou não. Um erro específico é retornado nos casos em que o modelo não pode suportar um parâmetro específico.
O exemplo a seguir mostra a resposta para uma solicitação de conclusão de bate-papo indicando o parâmetro reponse_format e solicitando uma resposta em JSON formato. No exemplo, como o modelo não suporta tal capacidade, um erro 422 é retornado ao usuário.
Pedido
POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant"
},
{
"role": "user",
"content": "Explain Riemann's conjecture in 1 paragraph"
}
],
"temperature": 0,
"top_p": 1,
"response_format": { "type": "json_object" },
}
resposta
{
"status": 422,
"code": "parameter_not_supported",
"detail": {
"loc": [ "body", "response_format" ],
"input": "json_object"
},
"message": "One of the parameters contain invalid values."
}
Dica
Você pode inspecionar a propriedade details.loc para entender a localização do parâmetro ofensivo e details.input para ver o valor que foi passado na solicitação.
Segurança de conteúdos
A API de inferência de modelo de IA do Azure dá suporte de Segurança de Conteúdo do Azure AI . Ao usar implantações com a Segurança de Conteúdo de IA do Azure ligada, as entradas e saídas passam por um conjunto de modelos de classificação destinados a detetar e prevenir a saída de conteúdo nocivo. O sistema de filtragem de conteúdo (visualização) deteta e executa ações em categorias específicas de conteúdo potencialmente nocivo em prompts de entrada e finalizações de saída.
O exemplo a seguir mostra a resposta para uma solicitação de conclusão de bate-papo que acionou a segurança do conteúdo.
Pedido
POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant"
},
{
"role": "user",
"content": "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
}
],
"temperature": 0,
"top_p": 1,
}
resposta
{
"status": 400,
"code": "content_filter",
"message": "The response was filtered",
"param": "messages",
"type": null
}
Primeiros passos
A API de inferência de modelo de IA do Azure está disponível nos recursos dos Serviços de IA do Azure. Você pode começar a usá-lo da mesma maneira que qualquer outro produto do Azure em que você criar e configurar seu recurso para inferência de modelo de IA do Azureou instância do serviço em sua Assinatura do Azure. Você pode criar quantos recursos forem necessários e configurá-los de forma independente, caso tenha várias equipes com requisitos diferentes.
Depois de criar um recurso dos Serviços de IA do Azure, você deve implantar um modelo antes de começar a fazer chamadas de API. Por padrão, nenhum modelo está disponível nele, então você pode controlar quais começar. Consulte o tutorial Criar sua primeira implantação de modelo no Azure AI model inference.