Modelos instantâneos no Microsoft Foundry (versão prévia)

Os modelos instantâneos permitem que você chame qualquer modelo com suporte por nome , sem necessidade de implantação. Crie um projeto do Foundry, inicie a codificação e use qualquer modelo disponível imediatamente.

Pré-requisitos

Uma assinatura do Azure. Criar um gratuitamente.
Entre no Microsoft Foundry. Verifique se o botão New Foundry está ativado. Essas etapas se referem ao Foundry (novo).
Um projeto do Foundry na região West US 3 (a única região com suporte para modelos instantâneos durante a versão preliminar). Se você precisar criar um projeto, consulte Criar um projeto.
A função de usuário do Foundry no projeto ou na conta.

Importante

As funções RBAC do Foundry foram renomeadas recentemente. Foundry User, Foundry Owner, Foundry Account Owner e Foundry Project Manager eram anteriormente chamados de Usuário do Azure AI, Proprietário do Azure AI, Proprietário da conta do Azure AI e Gerente de Projeto do Azure AI. Você ainda pode ver os nomes anteriores em alguns lugares enquanto essa mudança de nome está sendo implementada. Os IDs das funções e as permissões principais não são alterados com a mudança de nome.

Comece a usar modelos instantaneamente

Com modelos instantâneos, o fluxo de trabalho é simples: use um nome de modelo instantâneo com suporte em seu código. Nenhuma implantação é necessária. A mesma API, SDK e cliente que você já usa para implantações funciona com modelos instantâneos. Nenhum segundo SDK, nenhum cliente separado, nenhuma alteração de configuração.

A única alteração em relação ao código baseado em implantação é o parâmetro model. No código abaixo, substitua "gpt-5-mini" pelo nome qualquer modelo instantâneo.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

A única alteração em relação ao código baseado em implantação é o parâmetro model. No código abaixo, substitua "gpt-5-mini" pelo nome qualquer modelo instantâneo.

using Azure.Identity;
using Azure.AI.Projects;
using Azure.AI.Extensions.OpenAI;
using OpenAI.Responses;

#pragma warning disable OPENAI001

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
var ProjectEndpoint = "your_project_endpoint";

// Create project client to call Foundry API
AIProjectClient projectClient = new(
    endpoint: new Uri(ProjectEndpoint),
    tokenProvider: new DefaultAzureCredential());

// Run a responses API call
ProjectResponsesClient responseClient = projectClient.ProjectOpenAIClient.GetProjectResponsesClientForModel("gpt-5-mini"); 
ResponseResult response = await responseClient.CreateResponseAsync(
    "What is the size of France in square miles?");
Console.WriteLine(response.GetOutputText());

A única alteração em relação ao código baseado em implantação é o parâmetro model. No código abaixo, substitua "gpt-5-mini" pelo nome qualquer modelo instantâneo.

import { DefaultAzureCredential } from "@azure/identity";
import { AIProjectClient } from "@azure/ai-projects";

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
const PROJECT_ENDPOINT = "your_project_endpoint";

async function main(): Promise<void> {
    // Create project and openai clients to call Foundry API
    const project = new AIProjectClient(PROJECT_ENDPOINT, new DefaultAzureCredential());
    const openai = project.getOpenAIClient();

    // Run a responses API call
    const response = await openai.responses.create({
        model: "gpt-5-mini",
        input: "What is the size of France in square miles?",
    });
    console.log(`Response output: ${response.output_text}`);
}

main().catch(console.error);

A única alteração em relação ao código baseado em implantação é o parâmetro model. No código abaixo, substitua "gpt-5-mini" pelo nome qualquer modelo instantâneo.

package com.azure.ai.agents;

import com.azure.identity.DefaultAzureCredentialBuilder;
import com.openai.models.responses.Response;
import com.openai.models.responses.ResponseCreateParams;

public class CreateResponse {
    public static void main(String[] args) {
        // Format: "https://resource_name.ai.azure.com/api/projects/project_name"
        String ProjectEndpoint = "your_project_endpoint";

        // Create responses client to call Foundry API
        ResponsesClient responsesClient = new AgentsClientBuilder()
                .credential(new DefaultAzureCredentialBuilder().build())
                .endpoint(ProjectEndpoint)
                .buildResponsesClient();

        // Run a responses API call
        ResponseCreateParams responseRequest = new ResponseCreateParams.Builder()
                .input("What is the size of France in square miles?")
                .model("gpt-5-mini")
                .build();
        Response response = responsesClient.getResponseService().create(responseRequest);
        System.out.println(response.output());
    }
}

A única alteração em relação ao código baseado em implantação é o parâmetro model. No código abaixo, substitua "gpt-5-mini" pelo nome qualquer modelo instantâneo. Substitua YOUR-FOUNDRY-RESOURCE-NAME também por seus valores:

curl -X POST https://YOUR-FOUNDRY-RESOURCE-NAME.services.ai.azure.com/api/projects/YOUR-PROJECT-NAME/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_AI_AUTH_TOKEN" \
-d '{
        "model": "gpt-5.1-mini",
        "input": "What is the size of France in square miles?"
}'

Por que os modelos instantâneos importam

Alterne modelos alterando uma cadeia de caracteres – use qualquer nome de modelo instantâneo na model= linha, sem criar ou excluir implantações.
A mesma API e SDK – as mesmas chamadas funcionam para modelos instantâneos e implantações.
Funciona com suas ferramentas de desenvolvimento – os modelos instantâneos se integram aos pipelines da CLI do Foundry, do VS Code e do CI/CD da mesma maneira que as implantações.

As implantações não vão desaparecer. Eles permanecem a escolha certa quando você precisa de taxa de transferência reservada, filtros de conteúdo personalizado, residência de dados ou configurações corporativas avançadas. Os modelos Instant simplificam a experiência inicial, para que as implementações se tornem algo para o qual você evolui, e não uma barreira que precisa superar antes de usar um modelo.

Modelos com suporte

Os novos modelos dão suporte ao acesso instantâneo por padrão quando são lançados. O suporte para modelos adicionais é considerado com base na demanda do cliente.

Para ver todos os modelos que dão suporte ao acesso instantâneo:

Abra um projeto no Oeste dos EUA 3 na nova experiência do Foundry,
Selecione Descobrir na navegação superior direita e, em seguida, Modelos no painel esquerdo.
No catálogo de modelos, selecione Instant em Opções de desenvolvimento para ver os modelos instantâneos disponíveis.

Você também pode listar modelos instantâneos programaticamente:

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

Durante a versão prévia, os modelos instantâneos estão disponíveis apenas em projetos no Oeste dos EUA 3 .

Alguns modelos instantâneos podem aparecer na lista mesmo que sua assinatura não tenha cota para eles. Para obter mais informações, consulte Cotas e limites para modelos do Foundry.

Quando usar modelos instantâneos versus implantações

Scenario	Abordagem recomendada
Introdução, protótipo ou experimentação	Modelos instantâneos
Usar o modelo mais recente imediatamente após o lançamento	Modelos instantâneos
Precisa de capacidade reservada ou taxa de transferência previsível	Implantação
Exigir PTU (taxa de transferência provisionada)	Implantação
Precisa de residência de dados em uma região específica	Implantação
Políticas de filtragem de conteúdo personalizado por modelo	Implantação
Guardrails personalizados por modelo	Implantação
Configuração específica do ponto de extremidade (por exemplo, bloqueios de versão por ponto de extremidade)	Implantação
Particionamento granular de quota entre equipes	Implantação
Modelos ajustados	Implantação

Modelos e implantações instantâneas podem coexistir no mesmo projeto. Você pode começar com modelos instantâneos e criar implantações mais tarde à medida que seus requisitos evoluem.

Versões de modelo

Por padrão, os modelos instantâneos roteiam para a versão mais recente de um modelo. Para fixar em uma versão específica, acrescente a data de versão ao nome do modelo como um sufixo hifenizado:

O que você passa como `model`	Behavior
`model-name`	Rotas para a versão mais recente
`model-name-2025-04-01`	Rotas para aquela versão específica

A fixação de versão é opcional. Se o aplicativo exigir estabilidade, inclua o sufixo de versão. Caso contrário, você sempre obterá a versão mais recente automaticamente.

Como a cota é consumida

Modelos instantâneos usam um pool de cota global por modelo atribuído à sua assinatura. Essa cota é separada da cota regional usada pelas implantações padrão.

Você não aloca nem particiona a cota global — ela é compartilhada automaticamente entre todos os usos de modelos instantâneos na sua assinatura.
As implantações do Global Standard reservam uma parcela da sua cota global. Os modelos instantâneos usam qualquer capacidade restante.
Outros tipos de implantação (Padrão Regional, Provisionado) usam cota regional separada e não afetam a capacidade do modelo instantâneo.
Se as solicitações de modelo instantâneo forem limitadas, você poderá solicitar um aumento de cota ou criar uma implantação com capacidade reservada.

Para obter mais detalhes sobre como as cotas globais e regionais interagem, consulte Gerenciar e aumentar as cotas.

Controles corporativos

Capacidade	Como funciona
Bloquear modelos ou provedores específicos	As definições do Azure Policy se aplicam a modelos instantâneos da mesma forma que se aplicam às implantações
Fixar em uma versão de modelo	Acrescente o sufixo de versão ao nome do modelo (consulte versões do modelo)
Desabilitar totalmente os modelos instantâneos	Os administradores podem desativar modelos instantâneos no nível da assinatura por meio de Azure Policy

Para remover modelos instant de uma conta, configure as definições por meio do Bicep ou do ARM REST.

REST API
Bicep

Atualize sua conta com:

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Use este corpo da requisição para desativar efetivamente o acesso instantâneo ao modelo:

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Atualize o recurso de conta existente com um bloco instant:

resource account 'Microsoft.CognitiveServices/accounts@2026-01-15-preview' = {
  name: accountName
  location: location
  kind: 'AIServices'
  sku: {
    name: 'S0'
  }
  // Keep your existing account properties and add instant settings.
  properties: {
    instant: {
      raiPolicyName: 'Microsoft.DefaultV2'
      modelAllowList: []
    }
  }
}

Importante

Todos os modelos instantâneos usam filtros de conteúdo e guardrails padrão. No entanto, você não pode configurar os guardrails personalizados ou as políticas de IA Responsável (RAI) por modelo para modelos instantâneos. Você pode definir uma política RAI padrão no nível da conta por meio da API, mas essa política se aplica uniformemente a todos os modelos instantâneos. Se você precisar de políticas de filtragem de conteúdo diferentes para cada modelo, use uma implantação.

Colisões de nomes de implantação

Novas implantações não podem usar um nome que corresponda a um nome de modelo existente. Se você tiver uma implantação existente cujo nome colide com um nome de modelo, a implantação terá precedência e o acesso de modelo instantâneo para esse nome de modelo não estará disponível nesse projeto.

Limitações durante a visualização

Disponível somente no Oeste dos EUA 3 .
Não há suporte para modelos ajustados. Para usar um modelo refinado, crie uma implantação.
Guardrails, políticas RAI personalizadas e filtros de conteúdo não são configuráveis para modelos instantâneos.
Somente os modelos listados em modelos com suporte são qualificados.

Comentários

Esta página foi útil?

Last updated on 2026-06-03

Modelos instantâneos no Microsoft Foundry (versão prévia)

Pré-requisitos

Comece a usar modelos instantaneamente

Por que os modelos instantâneos importam

Modelos com suporte

Quando usar modelos instantâneos versus implantações

Versões de modelo

Como a cota é consumida

Controles corporativos

Colisões de nomes de implantação

Limitações durante a visualização

Conteúdo relacionado

Comentários

Recursos adicionais