Modelos instantâneos no Microsoft Foundry (versão prévia)

Os modelos instantâneos permitem que você chame qualquer modelo com suporte por nome , sem necessidade de implantação. Crie um projeto do Foundry, inicie a codificação e use qualquer modelo disponível imediatamente.

Pré-requisitos

  • Uma assinatura do Azure. Criar um gratuitamente.
  • Entre no Microsoft Foundry. Verifique se o botão New Foundry está ativado. Essas etapas se referem ao Foundry (novo).
  • Um projeto do Foundry na região West US 3 (a única região com suporte para modelos instantâneos durante a versão preliminar). Se você precisar criar um projeto, consulte Criar um projeto.
  • A função de usuário do Foundry no projeto ou na conta.

Importante

As funções RBAC do Foundry foram renomeadas recentemente. Foundry User, Foundry Owner, Foundry Account Owner e Foundry Project Manager eram anteriormente chamados de Usuário do Azure AI, Proprietário do Azure AI, Proprietário da conta do Azure AI e Gerente de Projeto do Azure AI. Você ainda pode ver os nomes anteriores em alguns lugares enquanto essa mudança de nome está sendo implementada. Os IDs das funções e as permissões principais não são alterados com a mudança de nome.

Comece a usar modelos instantaneamente

Com modelos instantâneos, o fluxo de trabalho é simples: use um nome de modelo instantâneo com suporte em seu código. Nenhuma implantação é necessária. A mesma API, SDK e cliente que você já usa para implantações funciona com modelos instantâneos. Nenhum segundo SDK, nenhum cliente separado, nenhuma alteração de configuração.

A única alteração em relação ao código baseado em implantação é o parâmetro model. No código abaixo, substitua "gpt-5-mini" pelo nome qualquer modelo instantâneo.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

Por que os modelos instantâneos importam

  • Alterne modelos alterando uma cadeia de caracteres – use qualquer nome de modelo instantâneo na model= linha, sem criar ou excluir implantações.
  • A mesma API e SDK – as mesmas chamadas funcionam para modelos instantâneos e implantações.
  • Funciona com suas ferramentas de desenvolvimento – os modelos instantâneos se integram aos pipelines da CLI do Foundry, do VS Code e do CI/CD da mesma maneira que as implantações.

As implantações não vão desaparecer. Eles permanecem a escolha certa quando você precisa de taxa de transferência reservada, filtros de conteúdo personalizado, residência de dados ou configurações corporativas avançadas. Os modelos Instant simplificam a experiência inicial, para que as implementações se tornem algo para o qual você evolui, e não uma barreira que precisa superar antes de usar um modelo.

Modelos com suporte

Os novos modelos dão suporte ao acesso instantâneo por padrão quando são lançados. O suporte para modelos adicionais é considerado com base na demanda do cliente.

Para ver todos os modelos que dão suporte ao acesso instantâneo:

  1. Abra um projeto no Oeste dos EUA 3 na nova experiência do Foundry,
  2. Selecione Descobrir na navegação superior direita e, em seguida, Modelos no painel esquerdo.
  3. No catálogo de modelos, selecione Instant em Opções de desenvolvimento para ver os modelos instantâneos disponíveis.

Você também pode listar modelos instantâneos programaticamente:

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

Durante a versão prévia, os modelos instantâneos estão disponíveis apenas em projetos no Oeste dos EUA 3 .

Alguns modelos instantâneos podem aparecer na lista mesmo que sua assinatura não tenha cota para eles. Para obter mais informações, consulte Cotas e limites para modelos do Foundry.

Quando usar modelos instantâneos versus implantações

Scenario Abordagem recomendada
Introdução, protótipo ou experimentação Modelos instantâneos
Usar o modelo mais recente imediatamente após o lançamento Modelos instantâneos
Precisa de capacidade reservada ou taxa de transferência previsível Implantação
Exigir PTU (taxa de transferência provisionada) Implantação
Precisa de residência de dados em uma região específica Implantação
Políticas de filtragem de conteúdo personalizado por modelo Implantação
Guardrails personalizados por modelo Implantação
Configuração específica do ponto de extremidade (por exemplo, bloqueios de versão por ponto de extremidade) Implantação
Particionamento granular de quota entre equipes Implantação
Modelos ajustados Implantação

Modelos e implantações instantâneas podem coexistir no mesmo projeto. Você pode começar com modelos instantâneos e criar implantações mais tarde à medida que seus requisitos evoluem.

Versões de modelo

Por padrão, os modelos instantâneos roteiam para a versão mais recente de um modelo. Para fixar em uma versão específica, acrescente a data de versão ao nome do modelo como um sufixo hifenizado:

O que você passa como model Behavior
model-name Rotas para a versão mais recente
model-name-2025-04-01 Rotas para aquela versão específica

A fixação de versão é opcional. Se o aplicativo exigir estabilidade, inclua o sufixo de versão. Caso contrário, você sempre obterá a versão mais recente automaticamente.

Como a cota é consumida

Modelos instantâneos usam um pool de cota global por modelo atribuído à sua assinatura. Essa cota é separada da cota regional usada pelas implantações padrão.

  • Você não aloca nem particiona a cota global — ela é compartilhada automaticamente entre todos os usos de modelos instantâneos na sua assinatura.
  • As implantações do Global Standard reservam uma parcela da sua cota global. Os modelos instantâneos usam qualquer capacidade restante.
  • Outros tipos de implantação (Padrão Regional, Provisionado) usam cota regional separada e não afetam a capacidade do modelo instantâneo.
  • Se as solicitações de modelo instantâneo forem limitadas, você poderá solicitar um aumento de cota ou criar uma implantação com capacidade reservada.

Para obter mais detalhes sobre como as cotas globais e regionais interagem, consulte Gerenciar e aumentar as cotas.

Controles corporativos

Capacidade Como funciona
Bloquear modelos ou provedores específicos As definições do Azure Policy se aplicam a modelos instantâneos da mesma forma que se aplicam às implantações
Fixar em uma versão de modelo Acrescente o sufixo de versão ao nome do modelo (consulte versões do modelo)
Desabilitar totalmente os modelos instantâneos Os administradores podem desativar modelos instantâneos no nível da assinatura por meio de Azure Policy

Para remover modelos instant de uma conta, configure as definições por meio do Bicep ou do ARM REST.

Atualize sua conta com:

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Use este corpo da requisição para desativar efetivamente o acesso instantâneo ao modelo:

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Importante

Todos os modelos instantâneos usam filtros de conteúdo e guardrails padrão. No entanto, você não pode configurar os guardrails personalizados ou as políticas de IA Responsável (RAI) por modelo para modelos instantâneos. Você pode definir uma política RAI padrão no nível da conta por meio da API, mas essa política se aplica uniformemente a todos os modelos instantâneos. Se você precisar de políticas de filtragem de conteúdo diferentes para cada modelo, use uma implantação.

Colisões de nomes de implantação

Novas implantações não podem usar um nome que corresponda a um nome de modelo existente. Se você tiver uma implantação existente cujo nome colide com um nome de modelo, a implantação terá precedência e o acesso de modelo instantâneo para esse nome de modelo não estará disponível nesse projeto.

Limitações durante a visualização

  • Disponível somente no Oeste dos EUA 3 .
  • Não há suporte para modelos ajustados. Para usar um modelo refinado, crie uma implantação.
  • Guardrails, políticas RAI personalizadas e filtros de conteúdo não são configuráveis para modelos instantâneos.
  • Somente os modelos listados em modelos com suporte são qualificados.