Modelos instantáneos en Microsoft Foundry (versión preliminar)

Los modelos instantáneos permiten llamar a cualquier modelo compatible por su nombre, sin necesidad de implementación. Cree un proyecto foundry, empiece a codificar y use cualquier modelo disponible inmediatamente.

Prerrequisitos

Una suscripción a Azure. Crear uno gratis.
Inicie sesión en Microsoft Foundry. Asegúrese de que el interruptor New Foundry está activado. Estos pasos hacen referencia a Foundry (nuevo).
Un proyecto de Foundry en West US 3 (la única región admitida para modelos instantáneos durante la versión preliminar). Si necesita crear un proyecto, consulte Creación de un proyecto.
El rol de usuario de Foundry en el proyecto o la cuenta.

Importante

Recientemente se cambió el nombre de los roles RBAC de Foundry. Foundry User, Foundry Owner, Foundry Account Owner y Foundry Project Manager se llamaban anteriormente Usuario de Azure AI, Propietario de Azure AI, Propietario de la cuenta de Azure AI y Administrador de proyectos de Azure AI. Es posible que siga viendo los nombres anteriores en algunos lugares mientras se implementa el cambio de nombre. El cambio de nombre no modifica los identificadores de rol y los permisos principales.

Empezar a usar modelos de forma instantánea

Con los modelos instantáneos, el flujo de trabajo es sencillo: use un nombre de modelo instantáneo admitido en el código. No se necesita ninguna implementación. La misma API, SDK y cliente que ya usa para las implementaciones funciona con modelos instantáneos. Ningún segundo SDK, ningún cliente independiente, ningún cambio de configuración.

El único cambio respecto al código basado en implementación es el parámetro model. En el código siguiente, reemplace "gpt-5-mini" por el nombre de cualquier modelo instantáneo.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

El único cambio respecto al código basado en implementación es el parámetro model. En el código siguiente, reemplace "gpt-5-mini" por el nombre de cualquier modelo instantáneo.

using Azure.Identity;
using Azure.AI.Projects;
using Azure.AI.Extensions.OpenAI;
using OpenAI.Responses;

#pragma warning disable OPENAI001

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
var ProjectEndpoint = "your_project_endpoint";

// Create project client to call Foundry API
AIProjectClient projectClient = new(
    endpoint: new Uri(ProjectEndpoint),
    tokenProvider: new DefaultAzureCredential());

// Run a responses API call
ProjectResponsesClient responseClient = projectClient.ProjectOpenAIClient.GetProjectResponsesClientForModel("gpt-5-mini"); 
ResponseResult response = await responseClient.CreateResponseAsync(
    "What is the size of France in square miles?");
Console.WriteLine(response.GetOutputText());

El único cambio respecto al código basado en implementación es el parámetro model. En el código siguiente, reemplace "gpt-5-mini" por el nombre de cualquier modelo instantáneo.

import { DefaultAzureCredential } from "@azure/identity";
import { AIProjectClient } from "@azure/ai-projects";

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
const PROJECT_ENDPOINT = "your_project_endpoint";

async function main(): Promise<void> {
    // Create project and openai clients to call Foundry API
    const project = new AIProjectClient(PROJECT_ENDPOINT, new DefaultAzureCredential());
    const openai = project.getOpenAIClient();

    // Run a responses API call
    const response = await openai.responses.create({
        model: "gpt-5-mini",
        input: "What is the size of France in square miles?",
    });
    console.log(`Response output: ${response.output_text}`);
}

main().catch(console.error);

El único cambio respecto al código basado en implementación es el parámetro model. En el código siguiente, reemplace "gpt-5-mini" por el nombre de cualquier modelo instantáneo.

package com.azure.ai.agents;

import com.azure.identity.DefaultAzureCredentialBuilder;
import com.openai.models.responses.Response;
import com.openai.models.responses.ResponseCreateParams;

public class CreateResponse {
    public static void main(String[] args) {
        // Format: "https://resource_name.ai.azure.com/api/projects/project_name"
        String ProjectEndpoint = "your_project_endpoint";

        // Create responses client to call Foundry API
        ResponsesClient responsesClient = new AgentsClientBuilder()
                .credential(new DefaultAzureCredentialBuilder().build())
                .endpoint(ProjectEndpoint)
                .buildResponsesClient();

        // Run a responses API call
        ResponseCreateParams responseRequest = new ResponseCreateParams.Builder()
                .input("What is the size of France in square miles?")
                .model("gpt-5-mini")
                .build();
        Response response = responsesClient.getResponseService().create(responseRequest);
        System.out.println(response.output());
    }
}

El único cambio respecto al código basado en implementación es el parámetro model. En el código siguiente, reemplace "gpt-5-mini" por el nombre de cualquier modelo instantáneo. Sustituya también YOUR-FOUNDRY-RESOURCE-NAME por sus valores:

curl -X POST https://YOUR-FOUNDRY-RESOURCE-NAME.services.ai.azure.com/api/projects/YOUR-PROJECT-NAME/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_AI_AUTH_TOKEN" \
-d '{
        "model": "gpt-5.1-mini",
        "input": "What is the size of France in square miles?"
}'

¿Por qué importan los modelos instantáneos?

Cambiar los modelos cambiando una cadena : use cualquier nombre de modelo instantáneo en la model= línea, sin crear ni eliminar implementaciones.
Misma API y SDK : las mismas llamadas funcionan tanto para los modelos instantáneos como para las implementaciones.
Funciona con tus herramientas de desarrollo — los modelos instantáneos se integran con Foundry CLI, VS Code y las canalizaciones de CI/CD igual que los despliegues.

Los despliegues no van a desaparecer. Siguen siendo la opción correcta cuando necesita rendimiento reservado, filtros de contenido personalizados, residencia de datos o configuraciones empresariales avanzadas. Los modelos instantáneos simplifican la experiencia inicial, de modo que los despliegues se convierten en algo a lo que llegas más adelante, no en un requisito previo que debas superar antes de poder usar un modelo.

Modelos compatibles

Los nuevos modelos admiten el acceso instantáneo de forma predeterminada cuando se publican. La compatibilidad con modelos adicionales se considera en función de la demanda del cliente.

Para ver todos los modelos que admiten el acceso instantáneo:

Abra un proyecto en Oeste de EE. UU. 3 en la nueva experiencia de Foundry,
Seleccione Detectar en el panel de navegación superior derecho y, a continuación, Modelos en el panel izquierdo.
En el catálogo de modelos, seleccione Instantánea en Opciones de desarrollo para ver los modelos instantáneos disponibles.

También puede enumerar modelos instantáneos mediante programación:

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

Durante la fase de vista previa, los modelos instantáneos solo están disponibles en proyectos de la región West US 3.

Es posible que algunos modelos instantáneos aparezcan en la lista incluso si la suscripción no tiene cuota para ellos. Para obtener más información, consulte Cuotas y límites de Foundry Models.

Cuándo usar modelos instantáneos frente a implementaciones

Escenario	Enfoque recomendado
Introducción, creación de prototipos o experimentación	Modelos instantáneos
Usar el modelo más reciente inmediatamente después de su lanzamiento	Modelos instantáneos
Necesidad de capacidad reservada o rendimiento predecible	Deployment
Requiere rendimiento aprovisionado (PTU)	Deployment
Necesidad de residencia de datos en una región específica	Deployment
Directivas de filtrado de contenido personalizadas por modelo	Deployment
Límites de protección personalizados por modelo	Deployment
Configuración específica del punto de conexión (por ejemplo, bloqueos de versión por punto de conexión)	Deployment
Particionamiento granular de cuota entre distintos equipos	Deployment
Modelos optimizados	Deployment

Los modelos e implementaciones instantáneos pueden coexistir en el mismo proyecto. Puede empezar con modelos instantáneos y crear implementaciones más adelante a medida que evolucionan los requisitos.

Versiones del modelo

De forma predeterminada, los modelos instantáneos apuntan a la última versión permanente de un modelo. Para anclar a una versión específica, anexe la fecha de la versión al nombre del modelo como sufijo con guiones:

Lo que pasas como `model`	Comportamiento
`model-name`	Rutas a la versión más reciente
`model-name-2025-04-01`	Rutas a esa versión específica

La fijación de versiones requiere activación explícita. Si la aplicación requiere estabilidad, incluya el sufijo de versión. De lo contrario, siempre obtendrá automáticamente la versión más reciente.

Cómo se consume la cuota

Los modelos instantáneos se extraen de un grupo de cuotas global por modelo asignado a la suscripción. Esta cuota es independiente de la cuota regional que usan las implementaciones estándar.

No es necesario asignar ni dividir la cuota global — se comparte automáticamente entre todo el uso de modelos instantáneos de su suscripción.
Los despliegues del nivel Global Standard reservan una parte de tu cuota global. Los modelos instantáneos usan cualquier capacidad que permanezca.
Otros tipos de implementación (Estándar regional, Aprovisionado) utilizan una cuota regional independiente y no afectan a la capacidad de su modelo instantáneo.
Si se limitan las solicitudes de modelo instantáneas, puede solicitar un aumento de cuota o crear una implementación con capacidad reservada.

Para más información sobre cómo interactúan las cuotas globales y regionales, consulte Administración y aumento de cuotas.

Controles de la empresa

Capacidad	Cómo funciona
Bloquear modelos o proveedores específicos	Las definiciones de Azure Policy se aplican a los modelos instantáneos de la misma manera que se aplican a las implementaciones.
Anclar a una versión del modelo	Anexe el sufijo de versión al nombre del modelo (vea Versiones del modelo)
Desactivar por completo los modelos instantáneos	Los administradores pueden desactivar los modelos instantáneos en el nivel de suscripción a través de Azure Policy

Para eliminar modelos instantáneos de una cuenta, configure los ajustes mediante Bicep o ARM REST.

REST API
Bicep

Actualice la cuenta con:

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Utilice este cuerpo de la solicitud para desactivar eficazmente el acceso instantáneo al modelo:

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Actualice el recurso de cuenta existente con un bloque instant:

resource account 'Microsoft.CognitiveServices/accounts@2026-01-15-preview' = {
  name: accountName
  location: location
  kind: 'AIServices'
  sku: {
    name: 'S0'
  }
  // Keep your existing account properties and add instant settings.
  properties: {
    instant: {
      raiPolicyName: 'Microsoft.DefaultV2'
      modelAllowList: []
    }
  }
}

Importante

Todos los modelos Instant usan barreras de protección predeterminadas y filtros de contenido. Sin embargo, no puedes configurar barreras de protección personalizadas ni directivas de inteligencia artificial responsable (RAI) para cada modelo en los modelos instant. Puede establecer una directiva RAI predeterminada en el nivel de cuenta a través de la API, pero esa directiva se aplica uniformemente a todos los modelos instantáneos. Si necesita directivas de filtrado de contenido diferentes para modelos individuales, use una implementación.

Conflictos de nombres de despliegue

Las nuevas implementaciones no pueden usar un nombre que coincida con un nombre de modelo existente. Si tiene una implementación existente cuyo nombre entra en conflicto con un nombre de modelo, la implementación tiene prioridad y el acceso instantáneo del modelo para ese nombre de modelo no está disponible en ese proyecto.

Limitaciones durante la versión preliminar

Disponible solo en Oeste de EE. UU. 3 .
Los modelos afinados no son compatibles. Para usar un modelo ajustado, cree una implementación.
Los límites de protección, las directivas RAI personalizadas y los filtros de contenido no se pueden configurar para los modelos instantáneos.
Solo los modelos enumerados en Modelos admitidos son aptos.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-03

Modelos instantáneos en Microsoft Foundry (versión preliminar)

Prerrequisitos

Empezar a usar modelos de forma instantánea

¿Por qué importan los modelos instantáneos?

Modelos compatibles

Cuándo usar modelos instantáneos frente a implementaciones

Versiones del modelo

Cómo se consume la cuota

Controles de la empresa

Conflictos de nombres de despliegue

Limitaciones durante la versión preliminar

Contenido relacionado

Comentarios

Recursos adicionales