Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Mit Sofortmodellen können Sie jedes unterstützte Modell anhand des Namens aufrufen – keine Bereitstellung erforderlich. Erstellen Sie ein Foundry-Projekt, beginnen Sie mit dem Codieren und verwenden Sie jedes verfügbare Modell sofort.
Voraussetzungen
- Ein Azure-Abonnement. Erstellen Sie ein kostenloses Konto.
- Melden Sie sich bei Microsoft Foundry an. Stellen Sie sicher, dass die Umschaltfläche "Neue Gießerei " aktiviert ist. Diese Schritte beziehen sich auf Foundry (neu).
- Ein Foundry-Projekt in West US 3 (die einzige unterstützte Region für Sofortmodelle während der Vorschau). Wenn Sie ein Projekt erstellen müssen, lesen Sie "Erstellen eines Projekts".
- Die Rolle „Foundry User“ im Projekt oder Konto.
Important
Die Foundry-RBAC-Rollen wurden kürzlich umbenannt. Foundry User, Foundry Owner, Foundry Account Owner und Foundry Project Manager wurden zuvor Azure KI-Benutzer, Azure KI-Besitzer, Azure KI-Kontobesitzer und Azure AI Project Manager benannt. Möglicherweise werden die vorherigen Namen an einigen Stellen weiterhin angezeigt, während der Umbenennungsrollout ausgeführt wird. Die Rollen-IDs und Kernberechtigungen bleiben durch die Umbenennung unverändert.
Beginnen Sie sofort mit der Verwendung von Modellen
Bei Sofortmodellen ist der Workflow einfach – verwenden Sie einen unterstützten Sofortmodellnamen in Ihrem Code. Es ist keine Bereitstellung erforderlich. Die gleiche API, das SDK und der Client, die Sie bereits für Bereitstellungen verwenden, funktioniert mit Sofortmodellen. Kein zweites SDK, kein separater Client, keine Konfigurationsänderungen.
Die einzige Änderung aus dem bereitstellungsbasierten Code ist der model Parameter. Ersetzen Sie im folgenden Code "gpt-5-mini" durch den Namen eines beliebigen Sofortmodells.
from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient
# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"
# Create project and openai clients to call Foundry API
project = AIProjectClient(
endpoint=PROJECT_ENDPOINT,
credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()
# Run a responses API call
response = openai.responses.create(
model="gpt-5-mini",
input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")
Warum Sofortmodelle wichtig sind
-
Wechseln Sie modelle, indem Sie eine Zeichenfolge ändern – verwenden Sie einen beliebigen Sofortmodellnamen in der
model=Zeile, ohne Bereitstellungen zu erstellen oder zu löschen. - Dieselbe API und das GLEICHE SDK – die gleichen Aufrufe funktionieren sowohl für Sofortmodelle als auch für Bereitstellungen.
- Arbeitet mit Ihren Entwicklungstools zusammen – Sofortmodelle sind in Foundry CLI-, VS-Code- und CI/CD-Pipelines auf die gleiche Weise wie Bereitstellungen integriert.
Bereitstellungen werden nicht verschwinden. Sie bleiben die richtige Wahl, wenn Sie reservierten Durchsatz, benutzerdefinierte Inhaltsfilter, Data Residency oder erweiterte Unternehmenskonfigurationen benötigen. Sofortmodelle vereinfachen den Einstieg, sodass Bereitstellungen etwas sind, zu dem Sie erst später übergehen – und keine Hürde, die Sie nehmen müssen, bevor Sie ein Modell verwenden können.
Unterstützte Modelle
Neue Modelle unterstützen den sofortigen Zugriff standardmäßig, wenn sie freigegeben werden. Die Unterstützung für zusätzliche Modelle wird basierend auf der Kundennachfrage berücksichtigt.
Alle Modelle mit Sofortzugriff anzeigen:
- Öffnen Sie ein Projekt in West US 3 in der neuen Foundry-Erfahrung,
- Wählen Sie " Entdecken" in der oberen rechten Navigation und dann " Modelle " im linken Bereich aus.
- Wählen Sie im Modellkatalog " Sofort " unter " Entwicklungsoptionen " aus, um die verfügbaren Sofortmodelle anzuzeigen.
Sie können auch Sofortmodelle programmatisch auflisten:
SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"
az rest --method get \
--url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
--output json \
| jq -r '(.value // .models // .)[]
| select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
| .model.name' \
| sort -u
Note
Während der Vorschau sind Instant-Modelle nur für Projekte in West US 3 verfügbar.
Einige Sofortmodelle werden möglicherweise in der Liste angezeigt, auch wenn Ihr Abonnement kein Kontingent für sie hat. Weitere Informationen finden Sie unter "Kontingente und Grenzwerte für Gießereimodelle".
Wann Instant-Modelle gegenüber Bereitstellungen verwendet werden sollten
| Szenario | Empfohlener Ansatz |
|---|---|
| Erste Schritte, Prototyperstellung oder Experimentierung | Modelle für Sofortantworten |
| Verwenden des neuesten Modells unmittelbar nach der Veröffentlichung | Modelle für Sofortantworten |
| Erforderliche reservierte Kapazität oder vorhersehbarer Durchsatz | Einsatz |
| Erfordert bereitgestellten Durchsatz (PTU) | Einsatz |
| Benötigen Sie Datenresidenz in einer bestimmten Region | Einsatz |
| Benutzerdefinierte Inhaltsfilterrichtlinien pro Modell | Einsatz |
| Benutzerdefinierte Schutzläufe pro Modell | Einsatz |
| Endpunktspezifische Konfiguration (z. B. Versionssperrungen pro Endpunkt) | Einsatz |
| Feingranulare Kontingentaufteilung über Teams hinweg | Einsatz |
| Fein abgestimmte Modelle | Einsatz |
Sofortmodelle und Bereitstellungen können im selben Projekt koexistieren. Sie können mit Sofortmodellen beginnen und später Bereitstellungen erstellen, sobald sich Ihre Anforderungen weiterentwickeln.
Modellversionen
Standardmäßig werden Instant-Modelle an die neueste Evergreen-Version eines Modells weitergeleitet. Um auf eine bestimmte Version festzulegen, hängen Sie das Versionsdatum als Suffix mit Bindestrich an den Modellnamen an:
Was Sie als model übergeben |
Behavior |
|---|---|
model-name |
Leitet zur aktuellsten Version weiter |
model-name-2025-04-01 |
Weiterleitung zu dieser spezifischen Version |
Die Versionsfixierung muss explizit aktiviert werden. Wenn Ihre Anwendung Stabilität erfordert, schließen Sie das Versionssuffix ein. Andernfalls erhalten Sie immer die neueste Version automatisch.
Wie Kontingent verbraucht wird
Sofortmodelle greifen auf einen pro Modell geltenden globalen Kontingentpool zu, der Ihrem Abonnement zugewiesen ist. Dieses Kontingent ist von dem regionalen Kontingent getrennt, das für Standardbereitstellungen verwendet wird.
- Sie weisen kein globales Kontingent zu und teilen es nicht auf – es wird automatisch über alle Nutzungen von Instant-Modellen innerhalb Ihres Abonnements gemeinsam genutzt.
- Globale Standardbereitstellungen reservieren einen Teil Ihres globalen Kontingents. Sofortmodelle verwenden die verbleibenden Kapazitäten.
- Andere Bereitstellungstypen (Regionaler Standard, bereitgestellt) verwenden ein separates regionales Kontingent und wirken sich nicht auf die Kapazität des Sofortmodells aus.
- Wenn Sofortmodellanforderungen gedrosselt werden, können Sie eine Kontingenterhöhung anfordern oder eine Bereitstellung mit reservierter Kapazität erstellen.
Weitere Informationen dazu, wie globale und regionale Kontingente interagieren, finden Sie unter Verwalten und Erhöhen von Kontingenten.
Unternehmenssteuerungen
| Fähigkeit | So funktioniert es |
|---|---|
| Blockieren bestimmter Modelle oder Anbieter | Azure Policy Definitionen gelten für Sofortmodelle auf die gleiche Weise wie für Bereitstellungen. |
| An eine Modellversion anheften | Fügen Sie das Versionssuffix an den Modellnamen an (siehe Modellversionen) |
| Vollständiges Deaktivieren von Sofortmodellen | Administratoren können Sofortmodelle auf Abonnementebene über Azure Policy deaktivieren. |
Um Sofortmodelle aus einem Konto zu entfernen, konfigurieren Sie die Einstellungen über Bicep oder ARM REST.
Aktualisieren Sie Ihr Konto mit:
PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json
Verwenden Sie diesen Anforderungstext, um den sofortigen Modellzugriff effektiv zu beenden:
{
"properties": {
"instant": {
"raiPolicyName": "Microsoft.DefaultV2",
"modelAllowList": []
}
}
}
Important
Alle Instant-Modelle verwenden standardmäßig Sicherheitsvorkehrungen und Inhaltsfilter. Sie können jedoch für Sofortmodelle keine benutzerdefinierten Schutzmechanismen oder Responsible AI (RAI)-Richtlinien für jedes Modell einzeln konfigurieren. Sie können eine RAI-Standardrichtlinie auf Kontoebene über die API festlegen, diese Richtlinie gilt jedoch einheitlich für alle Sofortmodelle. Wenn Sie unterschiedliche Inhaltsfilterrichtlinien für einzelne Modelle benötigen, verwenden Sie eine Bereitstellung.
Kollisionen mit Bereitstellungsnamen
Neue Bereitstellungen können keinen Namen verwenden, der einem vorhandenen Modellnamen entspricht. Wenn Sie über eine vorhandene Bereitstellung verfügen, deren Name mit einem Modellnamen kollidiert, hat die Bereitstellung Vorrang und sofortiger Modellzugriff für diesen Modellnamen ist in diesem Projekt nicht verfügbar.
Einschränkungen während der Vorschau
- Nur in West-US 3 verfügbar.
- Feinabgestimmte Modelle werden nicht unterstützt. Um ein fein abgestimmtes Modell zu verwenden, erstellen Sie eine Bereitstellung.
- Guardrails, benutzerdefinierte RAI-Richtlinien und Inhaltsfilter sind für Sofortmodelle nicht konfigurierbar.
- Nur die in unterstützten Modellen aufgeführten Modelle sind berechtigt.