Modèles instantanés dans Microsoft Foundry (préversion)

Les modèles instantanés vous permettent d’appeler n’importe quel modèle pris en charge par nom , aucun déploiement n’est requis. Créez un projet Foundry, commencez à coder et utilisez immédiatement n’importe quel modèle disponible.

Prerequisites

  • Un abonnement Azure. Créez-en un gratuitement.
  • Connectez-vous à Microsoft Foundry. Vérifiez que l'option New Foundry est activée. Ces étapes font référence à Foundry (nouveau).
  • Un projet Foundry dans West US 3 (la seule région prise en charge pour les modèles instantanés en préversion). Si vous devez créer un projet, consultez Créer un projet.
  • Rôle Utilisateur Foundry sur le projet ou le compte.

Important

Les rôles Foundry RBAC ont été récemment renommés. Foundry User, Foundry Owner, Propriétaire du compteFoundry et Foundry Project Manager ont été précédemment nommés Azure utilisateur IA, Azure propriétaire d’IA, propriétaire Azure compte IA et Azure gestionnaire Project IA. Il se peut que vous voyiez encore les anciens noms à certains endroits pendant le déploiement de ce changement de nom. Les ID de rôle et les autorisations de base ne sont pas modifiés par ce changement de nom.

Commencer à utiliser des modèles instantanément

Avec les modèles instantanés, le flux de travail est simple : utilisez un nom de modèle instantané pris en charge dans votre code. Aucun déploiement n’est nécessaire. La même API, le SDK et le client que vous utilisez déjà pour les déploiements fonctionnent avec des modèles instantanés. Aucun deuxième SDK, aucun client distinct, aucune modification de configuration.

La seule modification par rapport au code basé sur le déploiement est le paramètre model. Dans le code ci-dessous, remplacez "gpt-5-mini" par le nom n’importe quel modèle instantané.

from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"

# Create project and openai clients to call Foundry API
project = AIProjectClient(
    endpoint=PROJECT_ENDPOINT,
    credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()

# Run a responses API call
response = openai.responses.create(
    model="gpt-5-mini",
    input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")

Pourquoi les modèles instantanés importent

  • Changer de modèle en modifiant une chaîne : utilisez n’importe quel nom de modèle instantané dans la model= ligne, sans créer ou supprimer des déploiements.
  • Même API et SDK : les mêmes appels fonctionnent à la fois pour les modèles instantanés et les déploiements.
  • Fonctionne avec vos outils de développement : les modèles instantanés s’intègrent à l’interface CLI Foundry, VS Code et aux pipelines CI/CD de la même façon que les déploiements.

Les déploiements ne vont pas disparaître. Ils restent le bon choix lorsque vous avez besoin d’un débit réservé, de filtres de contenu personnalisés, de résidence de données ou de configurations d’entreprise avancées. Les modèles instantanés simplifient la prise en main, de sorte que les déploiements deviennent une étape à franchir par la suite, et non un obstacle à surmonter avant même de pouvoir utiliser un modèle.

Modèles pris en charge

Les nouveaux modèles prennent en charge l’accès instantané par défaut lorsqu’ils sont libérés. La prise en charge des modèles supplémentaires est considérée en fonction de la demande des clients.

Pour afficher tous les modèles qui prennent en charge l’accès instantané :

  1. Ouvrez un projet dans West US 3 dans la nouvelle expérience Foundry,
  2. Sélectionnez Découvrir dans le volet supérieur droit, puis Modèles dans le volet gauche.
  3. Dans le catalogue de modèles, sélectionnez Instantané sous Options de développement pour afficher les modèles instantanés disponibles.

Vous pouvez également répertorier des modèles instantanés par programmation :

SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"

az rest --method get \
  --url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
  --output json \
| jq -r '(.value // .models // .)[]
  | select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
  | .model.name' \
| sort -u

Note

Pendant la phase de préversion, les modèles instantanés sont disponibles uniquement pour les projets dans West US 3.

Certains modèles instantanés peuvent apparaître dans la liste même si votre abonnement n’a pas de quota pour eux. Pour plus d’informations, consultez Quotas et limites pour les modèles Foundry.

Quand utiliser les modèles instantanés plutôt que les déploiements

Scénario Approche recommandée
Prise en main, prototypage ou expérimentation Modèles instantanés
Utilisation du modèle le plus récent immédiatement après la mise en production Modèles instantanés
Besoin d’une capacité réservée ou d’un débit prévisible Deployment
Nécessiter un débit approvisionné (PTU) Deployment
Besoin d’une résidence de données dans une région spécifique Deployment
Stratégies de filtrage de contenu personnalisées par modèle Deployment
Garde-fous personnalisés par modèle Deployment
Configuration spécifique au point de terminaison (par exemple, verrous de version par point de terminaison) Deployment
Partitionnement granulaire des quotas par équipe Deployment
Modèles affinés Deployment

Les modèles et déploiements instantanés peuvent coexister dans le même projet. Vous pouvez commencer par des modèles instantanés et créer des déploiements ultérieurement à mesure que vos besoins évoluent.

Versions du modèle

Par défaut, les modèles instantanés routent vers la dernière version persistante d’un modèle. Pour épingler sur une version spécifique, ajoutez la date de la version au nom du modèle sous forme de suffixe précédé d’un trait d’union :

Ce que vous transmettez comme model Comportement
model-name Itinéraires vers la dernière version
model-name-2025-04-01 Itinéraires vers cette version spécifique

L’épinglage de version est facultatif. Si votre application nécessite une stabilité, incluez le suffixe de version. Sinon, vous obtenez toujours la dernière version automatiquement.

Utilisation du quota

Les modèles instantanés proviennent d’un pool de quotas global par modèle affecté à votre abonnement. Ce quota est distinct du quota régional utilisé par les déploiements standard.

  • Vous n’allouez ni ne répartissez de quota global : il est automatiquement partagé entre toutes les utilisations des modèles instantanés couvertes par votre abonnement.
  • Les déploiements globaux Standard réservent une partie de votre quota global. Les modèles instantanés utilisent la capacité restante.
  • D’autres types de déploiement (Standard régional, Provisionné) utilisent un quota régional distinct et n’affectent pas la capacité de votre modèle instantané.
  • Si les demandes de modèle instantané sont limitées, vous pouvez demander une augmentation du quota ou créer un déploiement avec une capacité réservée.

Pour plus d’informations sur la façon dont les quotas globaux et régionaux interagissent, consultez Gérer et augmenter les quotas.

Contrôles pour les entreprises

Capacité Fonctionnement
Bloquer des modèles ou des fournisseurs spécifiques Les définitions Azure Policy s’appliquent aux modèles instantanés de la même manière qu’aux déploiements
Épingler à une version de modèle Ajoutez le suffixe de version au nom du modèle (voir Versions du modèle)
Désactiver entièrement les modèles instantanés Les administrateurs peuvent désactiver les modèles instantanés au niveau de l’abonnement via Azure Policy

Pour supprimer des modèles instantanés d’un compte, configurez les paramètres via Bicep ou ARM REST.

Mettez à jour votre compte avec :

PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json

Utilisez ce corps de requête pour arrêter efficacement l’accès au modèle instantané :

{
  "properties": {
    "instant": {
      "raiPolicyName": "Microsoft.DefaultV2",
      "modelAllowList": []
    }
  }
}

Important

Tous les modèles instantanés utilisent des garde-fous et des filtres de contenu par défaut. Toutefois, vous ne pouvez pas configurer des garde-fous personnalisés ou des stratégies d’IA responsable (RAI) par modèle pour les modèles instantanés. Vous pouvez définir une stratégie RAI par défaut au niveau du compte via l’API, mais cette stratégie s’applique uniformément à tous les modèles instantanés. Si vous avez besoin de différentes stratégies de filtrage de contenu pour des modèles individuels, utilisez un déploiement.

Collisions de noms de déploiement

Les nouveaux déploiements ne peuvent pas utiliser de nom qui correspond à un nom de modèle existant. Si vous disposez d’un déploiement existant dont le nom entre en conflit avec un nom de modèle, le déploiement est prioritaire et l’accès instantané au modèle pour ce nom de modèle n’est pas disponible dans ce projet.

Limitations pendant l'aperçu