Modèles instantanés dans Microsoft Foundry (préversion)

Les modèles instantanés vous permettent d’appeler n’importe quel modèle pris en charge par nom , aucun déploiement n’est requis. Créez un projet Foundry, commencez à coder et utilisez immédiatement n’importe quel modèle disponible.

Prerequisites

Un abonnement Azure. Créez-en un gratuitement.
Connectez-vous à Microsoft Foundry. Vérifiez que l'option New Foundry est activée. Ces étapes font référence à Foundry (nouveau).
Un projet Foundry dans West US 3 (la seule région prise en charge pour les modèles instantanés en préversion). Si vous devez créer un projet, consultez Créer un projet.
Rôle Utilisateur Foundry sur le projet ou le compte.

Important

Les rôles Foundry RBAC ont été récemment renommés. Foundry User, Foundry Owner, Propriétaire du compteFoundry et Foundry Project Manager ont été précédemment nommés Azure utilisateur IA, Azure propriétaire d’IA, propriétaire Azure compte IA et Azure gestionnaire Project IA. Il se peut que vous voyiez encore les anciens noms à certains endroits pendant le déploiement de ce changement de nom. Les ID de rôle et les autorisations de base ne sont pas modifiés par ce changement de nom.

Commencer à utiliser des modèles instantanément

Avec les modèles instantanés, le flux de travail est simple : utilisez un nom de modèle instantané pris en charge dans votre code. Aucun déploiement n’est nécessaire. La même API, le SDK et le client que vous utilisez déjà pour les déploiements fonctionnent avec des modèles instantanés. Aucun deuxième SDK, aucun client distinct, aucune modification de configuration.

La seule modification par rapport au code basé sur le déploiement est le paramètre model. Dans le code ci-dessous, remplacez "gpt-5-mini" par le nom n’importe quel modèle instantané.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

La seule modification par rapport au code basé sur le déploiement est le paramètre model. Dans le code ci-dessous, remplacez "gpt-5-mini" par le nom n’importe quel modèle instantané.

using Azure.Identity;
using Azure.AI.Projects;
using Azure.AI.Extensions.OpenAI;
using OpenAI.Responses;

#pragma warning disable OPENAI001

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
var ProjectEndpoint = "your_project_endpoint";

// Create project client to call Foundry API
AIProjectClient projectClient = new(
    endpoint: new Uri(ProjectEndpoint),
    tokenProvider: new DefaultAzureCredential());

// Run a responses API call
ProjectResponsesClient responseClient = projectClient.ProjectOpenAIClient.GetProjectResponsesClientForModel("gpt-5-mini"); 
ResponseResult response = await responseClient.CreateResponseAsync(
    "What is the size of France in square miles?");
Console.WriteLine(response.GetOutputText());

La seule modification par rapport au code basé sur le déploiement est le paramètre model. Dans le code ci-dessous, remplacez "gpt-5-mini" par le nom n’importe quel modèle instantané.

import { DefaultAzureCredential } from "@azure/identity";
import { AIProjectClient } from "@azure/ai-projects";

// Format: "https://resource_name.ai.azure.com/api/projects/project_name"
const PROJECT_ENDPOINT = "your_project_endpoint";

async function main(): Promise<void> {
    // Create project and openai clients to call Foundry API
    const project = new AIProjectClient(PROJECT_ENDPOINT, new DefaultAzureCredential());
    const openai = project.getOpenAIClient();

    // Run a responses API call
    const response = await openai.responses.create({
        model: "gpt-5-mini",
        input: "What is the size of France in square miles?",
    });
    console.log(`Response output: ${response.output_text}`);
}

main().catch(console.error);

La seule modification par rapport au code basé sur le déploiement est le paramètre model. Dans le code ci-dessous, remplacez "gpt-5-mini" par le nom n’importe quel modèle instantané.

package com.azure.ai.agents;

import com.azure.identity.DefaultAzureCredentialBuilder;
import com.openai.models.responses.Response;
import com.openai.models.responses.ResponseCreateParams;

public class CreateResponse {
    public static void main(String[] args) {
        // Format: "https://resource_name.ai.azure.com/api/projects/project_name"
        String ProjectEndpoint = "your_project_endpoint";

        // Create responses client to call Foundry API
        ResponsesClient responsesClient = new AgentsClientBuilder()
                .credential(new DefaultAzureCredentialBuilder().build())
                .endpoint(ProjectEndpoint)
                .buildResponsesClient();

        // Run a responses API call
        ResponseCreateParams responseRequest = new ResponseCreateParams.Builder()
                .input("What is the size of France in square miles?")
                .model("gpt-5-mini")
                .build();
        Response response = responsesClient.getResponseService().create(responseRequest);
        System.out.println(response.output());
    }
}

La seule modification par rapport au code basé sur le déploiement est le paramètre model. Dans le code ci-dessous, remplacez "gpt-5-mini" par le nom n’importe quel modèle instantané. Remplacez également YOUR-FOUNDRY-RESOURCE-NAME par vos valeurs :

curl -X POST https://YOUR-FOUNDRY-RESOURCE-NAME.services.ai.azure.com/api/projects/YOUR-PROJECT-NAME/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_AI_AUTH_TOKEN" \
-d '{
        "model": "gpt-5.1-mini",
        "input": "What is the size of France in square miles?"
}'

Pourquoi les modèles instantanés importent

Changer de modèle en modifiant une chaîne : utilisez n’importe quel nom de modèle instantané dans la model= ligne, sans créer ou supprimer des déploiements.
Même API et SDK : les mêmes appels fonctionnent à la fois pour les modèles instantanés et les déploiements.
Fonctionne avec vos outils de développement : les modèles instantanés s’intègrent à l’interface CLI Foundry, VS Code et aux pipelines CI/CD de la même façon que les déploiements.

Les déploiements ne vont pas disparaître. Ils restent le bon choix lorsque vous avez besoin d’un débit réservé, de filtres de contenu personnalisés, de résidence de données ou de configurations d’entreprise avancées. Les modèles instantanés simplifient la prise en main, de sorte que les déploiements deviennent une étape à franchir par la suite, et non un obstacle à surmonter avant même de pouvoir utiliser un modèle.

Modèles pris en charge

Les nouveaux modèles prennent en charge l’accès instantané par défaut lorsqu’ils sont libérés. La prise en charge des modèles supplémentaires est considérée en fonction de la demande des clients.

Pour afficher tous les modèles qui prennent en charge l’accès instantané :

Ouvrez un projet dans West US 3 dans la nouvelle expérience Foundry,
Sélectionnez Découvrir dans le volet supérieur droit, puis Modèles dans le volet gauche.
Dans le catalogue de modèles, sélectionnez Instantané sous Options de développement pour afficher les modèles instantanés disponibles.

Vous pouvez également répertorier des modèles instantanés par programmation :

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

Pendant la phase de préversion, les modèles instantanés sont disponibles uniquement pour les projets dans West US 3.

Certains modèles instantanés peuvent apparaître dans la liste même si votre abonnement n’a pas de quota pour eux. Pour plus d’informations, consultez Quotas et limites pour les modèles Foundry.

Quand utiliser les modèles instantanés plutôt que les déploiements

Scénario	Approche recommandée
Prise en main, prototypage ou expérimentation	Modèles instantanés
Utilisation du modèle le plus récent immédiatement après la mise en production	Modèles instantanés
Besoin d’une capacité réservée ou d’un débit prévisible	Deployment
Nécessiter un débit approvisionné (PTU)	Deployment
Besoin d’une résidence de données dans une région spécifique	Deployment
Stratégies de filtrage de contenu personnalisées par modèle	Deployment
Garde-fous personnalisés par modèle	Deployment
Configuration spécifique au point de terminaison (par exemple, verrous de version par point de terminaison)	Deployment
Partitionnement granulaire des quotas par équipe	Deployment
Modèles affinés	Deployment

Les modèles et déploiements instantanés peuvent coexister dans le même projet. Vous pouvez commencer par des modèles instantanés et créer des déploiements ultérieurement à mesure que vos besoins évoluent.

Versions du modèle

Par défaut, les modèles instantanés routent vers la dernière version persistante d’un modèle. Pour épingler sur une version spécifique, ajoutez la date de la version au nom du modèle sous forme de suffixe précédé d’un trait d’union :

Ce que vous transmettez comme `model`	Comportement
`model-name`	Itinéraires vers la dernière version
`model-name-2025-04-01`	Itinéraires vers cette version spécifique

L’épinglage de version est facultatif. Si votre application nécessite une stabilité, incluez le suffixe de version. Sinon, vous obtenez toujours la dernière version automatiquement.

Utilisation du quota

Les modèles instantanés proviennent d’un pool de quotas global par modèle affecté à votre abonnement. Ce quota est distinct du quota régional utilisé par les déploiements standard.

Vous n’allouez ni ne répartissez de quota global : il est automatiquement partagé entre toutes les utilisations des modèles instantanés couvertes par votre abonnement.
Les déploiements globaux Standard réservent une partie de votre quota global. Les modèles instantanés utilisent la capacité restante.
D’autres types de déploiement (Standard régional, Provisionné) utilisent un quota régional distinct et n’affectent pas la capacité de votre modèle instantané.
Si les demandes de modèle instantané sont limitées, vous pouvez demander une augmentation du quota ou créer un déploiement avec une capacité réservée.

Pour plus d’informations sur la façon dont les quotas globaux et régionaux interagissent, consultez Gérer et augmenter les quotas.

Contrôles pour les entreprises

Capacité	Fonctionnement
Bloquer des modèles ou des fournisseurs spécifiques	Les définitions Azure Policy s’appliquent aux modèles instantanés de la même manière qu’aux déploiements
Épingler à une version de modèle	Ajoutez le suffixe de version au nom du modèle (voir Versions du modèle)
Désactiver entièrement les modèles instantanés	Les administrateurs peuvent désactiver les modèles instantanés au niveau de l’abonnement via Azure Policy

Pour supprimer des modèles instantanés d’un compte, configurez les paramètres via Bicep ou ARM REST.

REST API
Bicep

Mettez à jour votre compte avec :

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Utilisez ce corps de requête pour arrêter efficacement l’accès au modèle instantané :

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Mettez à jour votre ressource de compte existante avec un bloc instant :

resource account 'Microsoft.CognitiveServices/accounts@2026-01-15-preview' = {
  name: accountName
  location: location
  kind: 'AIServices'
  sku: {
    name: 'S0'
  }
  // Keep your existing account properties and add instant settings.
  properties: {
    instant: {
      raiPolicyName: 'Microsoft.DefaultV2'
      modelAllowList: []
    }
  }
}

Important

Tous les modèles instantanés utilisent des garde-fous et des filtres de contenu par défaut. Toutefois, vous ne pouvez pas configurer des garde-fous personnalisés ou des stratégies d’IA responsable (RAI) par modèle pour les modèles instantanés. Vous pouvez définir une stratégie RAI par défaut au niveau du compte via l’API, mais cette stratégie s’applique uniformément à tous les modèles instantanés. Si vous avez besoin de différentes stratégies de filtrage de contenu pour des modèles individuels, utilisez un déploiement.

Collisions de noms de déploiement

Les nouveaux déploiements ne peuvent pas utiliser de nom qui correspond à un nom de modèle existant. Si vous disposez d’un déploiement existant dont le nom entre en conflit avec un nom de modèle, le déploiement est prioritaire et l’accès instantané au modèle pour ce nom de modèle n’est pas disponible dans ce projet.

Limitations pendant l'aperçu

Disponible uniquement dans West US 3.
Les modèles affinés ne sont pas pris en charge. Pour utiliser un modèle affiné, créez un déploiement.
Les garde-fous, les stratégies RAI personnalisées et les filtres de contenu ne sont pas configurables pour les modèles instantanés.
Seuls les modèles répertoriés dans les modèles pris en charge sont éligibles.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-06-03

Modèles instantanés dans Microsoft Foundry (préversion)

Prerequisites

Commencer à utiliser des modèles instantanément

Pourquoi les modèles instantanés importent

Modèles pris en charge

Quand utiliser les modèles instantanés plutôt que les déploiements

Versions du modèle

Utilisation du quota

Contrôles pour les entreprises

Collisions de noms de déploiement

Limitations pendant l'aperçu

Contenu connexe

Commentaires

Ressources supplémentaires