Acceso instantáneo a los modelos en Microsoft Foundry (versión preliminar)

El acceso instantáneo a los modelos le permite llamar a cualquier modelo compatible por su nombre, sin necesidad de implementación. Cree un proyecto foundry, empiece a codificar y use cualquier modelo disponible inmediatamente.

Prerrequisitos

  • Una suscripción a Azure. Crear uno gratis.
  • Inicie sesión en Microsoft Foundry. Asegúrese de que el interruptor New Foundry está activado. Estos pasos hacen referencia a Foundry (nuevo).
  • Un proyecto de Foundry en West US 3 (la única región admitida para el acceso instantáneo durante la versión preliminar). Si necesita crear un proyecto, consulte Creación de un proyecto.
  • El rol de usuario de Foundry en el proyecto o la cuenta.

Importante

Recientemente se cambió el nombre de los roles RBAC de Foundry. Foundry User, Foundry Owner, Foundry Account Owner y Foundry Project Manager se llamaban anteriormente Usuario de Azure AI, Propietario de Azure AI, Propietario de la cuenta de Azure AI y Administrador de proyectos de Azure AI. Es posible que siga viendo los nombres anteriores en algunos lugares mientras se implementa el cambio de nombre. El cambio de nombre no modifica los identificadores de rol y los permisos principales.

Empezar a usar modelos de forma instantánea

Con el acceso instantáneo, el flujo de trabajo es sencillo: use un nombre de modelo instantáneo admitido en el código. No se necesita ninguna implementación. La misma API, SDK y cliente que ya usa para las implementaciones funciona con modelos de acceso instantáneo. Ningún segundo SDK, ningún cliente independiente, ningún cambio de configuración.

El único cambio en el código basado en implementación es el parámetro model. En el código siguiente, reemplace "gpt-5-mini" (un modelo implementado) por el nombre de cualquier modelo de acceso instantáneo, como chat-gpt-latest.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

¿Por qué importa el acceso instantáneo?

  • Cambiar los modelos cambiando una cadena : use cualquier nombre de modelo instantáneo en la model= línea, sin crear ni eliminar implementaciones.
  • Misma API y SDK : las mismas llamadas funcionan tanto para el acceso instantáneo como para las implementaciones.
  • Funciona con tus herramientas de desarrollo — el acceso instantáneo se integra con Foundry CLI, VS Code y los pipelines de CI/CD de la misma manera que lo hacen los despliegues.

Los despliegues no van a desaparecer. Siguen siendo la opción correcta cuando necesita rendimiento reservado, filtros de contenido personalizados, residencia de datos o configuraciones empresariales avanzadas. El acceso instantáneo simplifica la experiencia de introducción para que las implementaciones se conviertan en algo a nivel superior, no una puerta que debe pasar antes de poder usar un modelo.

Modelos compatibles

Los nuevos modelos admiten el acceso instantáneo de forma predeterminada cuando se publican. La compatibilidad con modelos adicionales se considera en función de la demanda del cliente.

Para ver todos los modelos que admiten el acceso instantáneo:

  1. Abra un proyecto en Oeste de EE. UU. 3 en la nueva experiencia de Foundry,
  2. Seleccione Detectar en el panel de navegación superior derecho y, a continuación, Modelos en el panel izquierdo.
  3. En el catálogo de modelos, seleccione Instantánea en Opciones de desarrollo para ver los modelos de acceso instantáneo disponibles.

También puede enumerar los modelos de acceso instantáneo mediante programación:

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

Durante la versión preliminar, los modelos de acceso instantáneo solo están disponibles en proyectos de Oeste de EE. UU. 3 .

Algunos modelos de acceso instantáneo pueden aparecer en la lista incluso si la suscripción no tiene cuota para ellos. Para obtener más información, consulte Cuotas y límites de Foundry Models.

Cuándo usar el acceso instantáneo frente a las implementaciones

Escenario Enfoque recomendado
Introducción, creación de prototipos o experimentación Acceso instantáneo
Usar el modelo más reciente inmediatamente después de su lanzamiento Acceso instantáneo
Necesidad de capacidad reservada o rendimiento predecible Deployment
Requiere rendimiento aprovisionado (PTU) Deployment
Necesidad de residencia de datos en una región específica Deployment
Directivas de filtrado de contenido personalizadas por modelo Deployment
Barreras de protección personalizadas por modelo Deployment
Configuración específica del punto de conexión (por ejemplo, bloqueos de versión por punto de conexión) Deployment
Particionamiento granular de cuota entre distintos equipos Deployment
Modelos optimizados Deployment

El acceso instantáneo y las implementaciones pueden coexistir en el mismo proyecto. Puede empezar con el modelo de acceso instantáneo y crear una implementación más adelante a medida que evolucionan los requisitos.

Versiones del modelo

De forma predeterminada, el acceso instantáneo usa la versión perenne más reciente de un modelo. Para anclar a una versión específica, añada la fecha de la versión al nombre del modelo como un sufijo con guiones:

Lo que pasas como model Comportamiento
model-name Rutas a la versión más reciente
model-name-2025-04-01 Rutas a esa versión específica

El anclaje de versiones es opcional. Si la aplicación requiere estabilidad, incluya el sufijo de versión. De lo contrario, siempre obtendrá automáticamente la versión más reciente.

Cómo se consume la cuota

El acceso instantáneo se extrae de un grupo de cuotas global por modelo asignado a la suscripción. Esta cuota es independiente de la cuota regional que usan las implementaciones estándar.

  • No es necesario asignar ni dividir la cuota global, se comparte automáticamente entre todo el uso de modelos instantáneos de su suscripción.
  • Las implementaciones estándar globales reservan una parte de la cuota global. Los modelos de acceso instantáneo usan cualquier capacidad que permanezca.
  • Otros tipos de implementación (Estándar regional, Aprovisionado) utilizan una cuota regional independiente y no afectan a la capacidad de su modelo instantáneo.
  • Si se limitan las solicitudes de modelos instantáneos, puede solicitar un aumento de la cuota o crear una implementación con capacidad reservada.

Para más información sobre cómo interactúan las cuotas globales y regionales, consulte Administración y aumento de cuotas.

Controles de la empresa

Capacidad Cómo funciona
Bloquear modelos o proveedores específicos Las definiciones de Azure Policy se aplican al acceso instantáneo de la misma manera que a las implementaciones.
Anclar a una versión del modelo Anexe el sufijo de versión al nombre del modelo (vea Versiones del modelo)
Deshabilitar el acceso instantáneo por completo Los administradores pueden desactivar el acceso instantáneo en el nivel de suscripción a través de Azure Policy

Para quitar el acceso instantáneo de una cuenta, configure las opciones a través de Bicep o REST de ARM.

Actualice la cuenta con:

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Utilice este cuerpo de la solicitud para desactivar eficazmente el acceso instantáneo al modelo:

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Importante

Todos los modelos de acceso instantáneo usan límites de protección predeterminados y filtros de contenido. Sin embargo, no puede configurar directivas de protección personalizadas ni directivas de IA responsable (RAI) por modelo para el acceso instantáneo. Puede establecer una directiva RAI predeterminada en el nivel de cuenta a través de la API, pero esa directiva se aplica uniformemente a todos los modelos de acceso instantáneo. Si necesita directivas de filtrado de contenido diferentes para modelos individuales, use una implementación.

Conflictos de nombres de implementación

Las nuevas implementaciones no pueden usar un nombre que coincida con un nombre de modelo existente. Si tiene una implementación existente cuyo nombre entra en conflicto con un nombre de modelo, la implementación tiene prioridad y el acceso instantáneo del modelo para ese nombre de modelo no está disponible en ese proyecto.

Limitaciones durante la versión preliminar

  • Disponible solo en Oeste de EE. UU. 3 .
  • Los modelos afinados no son compatibles. Para usar un modelo ajustado, cree una implementación.
  • Los límites de protección, las directivas RAI personalizadas y los filtros de contenido no se pueden configurar para el acceso instantáneo.
  • Solo los modelos enumerados en Modelos admitidos son aptos.