Von Azure verkaufte Gießereimodelle

Microsoft Foundry Models im Modellkatalog umfassen zwei Hauptkategorien, nämlich Foundry Models, die von Azure und Foundry Models von Partnern und Community verkauft werden. In diesem Artikel wird eine Auswahl der von Azure angebotenen Foundry-Modelle zusammen mit ihren Funktionen, Bereitstellungstypen und verfügbaren Regionen aufgeführt; ausgenommen sind veraltete und stillgelegte Modelle. Von Azure vertriebene Foundry-Modelle werden auch als Direct from Azure Models oder Azure Direct Models bezeichnet.

Modelle, die von Azure verkauft werden, werden auch von Azure gehostet und von Azure als Teil des Foundry Models Service betrieben. Sie umfassen alle Azure OpenAI-Modelle und spezifische, währte Modelle von Top-Anbietern. Diese Modelle werden über Ihr Azure-Abonnement abgerechnet, sind durch Azure Service Level Agreements abgedeckt und werden von Microsoft unterstützt. Eine Liste der Foundry Models, die vom Foundry Agent Service unterstützt werden, finden Sie unter Modelle, die vom Agent-Dienst unterstützt werden, und eine Liste der Foundry Models von Partnern finden Sie unter Foundry Models from partners and community.

Tipp

Verwenden Sie die Registerkarten oben auf dieser Seite, um zwischen Azure OpenAI-Modellen und Other-Modellsammlungen von Anbietern wie Cohere, DeepSeek, Meta, Mistral AI und xAI zu wechseln.

Azure OpenAI in Microsoft Foundry Modellen

Azure OpenAI wird von einer Vielzahl von Modellen mit unterschiedlichen Fähigkeiten und Preispunkten unterstützt. Die Modellverfügbarkeit variiert je nach Region und Cloud.

  • Informationen zur regionalen Verfügbarkeit von Azure OpenAI in Microsoft Foundry-Modellen, gruppiert nach Bereitstellungskategorie, finden Sie unter Regionale Verfügbarkeit für Foundry Models, die über Azure angeboten werden.

  • Informationen zur Verfügbarkeit von Modellen in Azure Government finden Sie unter Azure OpenAI in Azure Government.

Highlights des Modells

Modelle Beschreibung
GPT-chat-latest (Vorschau) NEUgpt-chat-latestVorschau
GPT-5.5-Serie NEUgpt-5.5
GPT-5.4-Serie gpt-5.4-mini, gpt-5.4-nano, gpt-5.4, gpt-5.4-pro
GPT-5.3-Serie gpt-5.3-chat, gpt-5.3-codex
GPT-5.2-Serie gpt-5.2-codex, gpt-5.2, gpt-5.2-chatVorschau
GPT-5.1-Serie gpt-5.1, gpt-5.1-chatVorschau, gpt-5.1-codex, gpt-5.1-codex-mini
Sora NEUE Sora-2
GPT-5-Serie gpt-5, , gpt-5-minigpt-5-nano, gpt-5-chatVorschau
gpt-oss Modelle mit offenen Gewichten für logisches Schlussfolgern
codex-mini Feinabgestimmte Version von o4-mini.
GPT-4.1-Serie gpt-4.1, gpt-4.1-minigpt-4.1-nano
Computerverwendungsvorschau Ein experimentelles Modell, das für die Verwendung mit dem Computer-Use-Tool der Responses API trainiert wurde.
O-Serienmodelle Reasoning-Modelle mit fortschrittlicher Problemlösung sowie stärkerem Fokus und höherer Leistungsfähigkeit.
GPT-4o, GPT-4o mini und GPT-4 Turbo Leistungsfähige Azure OpenAI-Modelle mit multimodalen Versionen, die sowohl Text als auch Bilder als Eingabe verarbeiten können.
Einbettungen Eine Reihe von Modellen, mit denen Text in numerische Vektorform konvertiert werden kann, um die Ähnlichkeit von Text zu erleichtern.
Bildgenerierung Eine Reihe von Modellen, die Originalbilder aus natürlicher Sprache generieren können.
Video generation Ein Modell, das originale Videoszenen aus Textanweisungen generieren kann.
Audio Eine Reihe von Modellen für Spracherkennung, Übersetzung und Sprachsynthese. GPT-4o-Audiomodelle unterstützen entweder Konversationsinteraktionen mit geringer Latenz mit Spracheingabe, Sprachausgabe oder Audiogenerierung.

GPT-chat-latest

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl von Output-Token Schulungsdaten (bis zu)
gpt-chat-latest (2026-05-28)
Vorschau
- Argumentation
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben
- Funktionen, Tools und parallele Toolaufrufe.
128,000

Eingabe: 111.616
Ausgabe: 16.384
16,384 August 2025
gpt-chat-latest (2026-05-05)
Vorschau
- Argumentation
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben
- Funktionen, Tools und parallele Toolaufrufe.
128,000

Eingabe: 111.616
Ausgabe: 16.384
16,384 August 2025

Hinweis

Dieses Modell wird möglicherweise von OpenAI auch als GPT-5.5 Instant oder in der OpenAI API als chat-latest bezeichnet. In Microsoft Foundry ist der Produktname für diese Version gpt-chat-latest. Das Modell folgt weiterhin dem vorhandenen Vorschaulebenszyklus und den Standardbenachrichtigungszeiträumen. Das Team prüft außerdem Möglichkeiten, um zu vereinfachen, wie Kunden im Laufe der Zeit auf fortlaufend aktualisierte Modelle zugreifen, aber das aktuelle Verhalten bleibt unverändert, da diese Arbeit fortgesetzt wird.

GPT-5.5

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl von Output-Token Schulungsdaten (bis zu)
gpt-5.5 (2026-04-24) - Argumentation
- Antwort-API.
– API für Chatabschlusse.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Computerverwendung
- Vollständige Zusammenfassung der Funktionen.
1.050.000 br>
Eingabe: 922.000
Ausgabe: 128.000
128,000 Dezember 2025

Hinweis

Einige Kontingentstufen erfordern Kontingentanfragen für gpt-5.5, um dieses Modell bereitstellen zu können. Abonnements der Stufe 5 und Stufe 6 verfügen standardmäßig über ein Kontingent.

GPT-5.4

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl von Output-Token Schulungsdaten (bis zu)
gpt-5.4 (2026-03-05) - Argumentation
- Antwort-API.
– API für Chatabschlusse.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Computerverwendung
- Vollständige Zusammenfassung der Funktionen.
1,050,000 128,000 August 2025
gpt-5.4-pro (2026-03-05) - Argumentation
- Antwort-API.
- Text- und Bildverarbeitung.
- Funktionen und Tools
- Vollständige Zusammenfassung der Funktionen.
1,050,000 128,000 August 2025
gpt-5.4-mini (2026-03-17) - Argumentation
- Antwort-API.
– API für Chatabschlusse.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Computerverwendung
- Vollständige Zusammenfassung der Funktionen.
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 August 2025
gpt-5.4-nano (2026-03-17) - Argumentation
- Antwort-API.
– API für Chatabschlusse.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen.
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 August 2025

GPT-5.3

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl von Output-Token Schulungsdaten (bis zu)
gpt-5.3-codex (2026-02-24) - Argumentation
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen.
- Optimiert für Codex CLI & Codex VS Code Extension
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 August 2025
gpt-5.3-chat (2026-03-03)
Vorschau
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben
- Funktionen, Tools und parallele Toolaufrufe.
128,000

Eingabe: 111.616
Ausgabe: 16.384
16,384 August 2025

GPT-5.2

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl von Output-Token Schulungsdaten (bis zu)
gpt-5.2-codex (2026-01-14) - Argumentation
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen.
- Optimiert für Codex CLI & Codex VS Code Extension
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000
gpt-5.2 (2025-12-11) - Argumentation
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen.
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 August 2025
gpt-5.2-chat (2025-12-11)
Vorschau
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben
- Funktionen, Tools und parallele Toolaufrufe.
128,000

Eingabe: 111.616
Ausgabe: 16.384
16,384 August 2025
gpt-5.2-chat (2026-02-10)
Vorschau
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben
- Funktionen, Tools und parallele Toolaufrufe.
128,000

Eingabe: 111.616
Ausgabe: 16.384
16,384 August 2025

Vorsicht

Es wird nicht empfohlen, Vorschaumodelle in der Produktion zu verwenden. Wir aktualisieren alle Bereitstellungen von Vorschaumodellen entweder auf zukünftige Vorschauversionen oder auf die neueste stabile, allgemein verfügbare Version. Modelle, die als Vorschau festgelegt sind, entsprechen nicht dem Standard-Azure OpenAI-Modelllebenszyklus.

GPT-5.1

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl von Output-Token Schulungsdaten (bis zu)
gpt-5.1 (2025-11-13) - Argumentation
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen.
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 30. September 2024
gpt-5.1-chat (2025-11-13)
Vorschau
- Argumentation
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben
- Funktionen, Tools und parallele Toolaufrufe.
128,000

Eingabe: 111.616
Ausgabe: 16.384
16,384 30. September 2024
gpt-5.1-codex (2025-11-13) - Nur Responses-API.
- Text- und Bildverarbeitung
- Strukturierte Ausgaben.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen
- Optimiert für Codex CLI & Codex VS Code Extension
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 30. September 2024
gpt-5.1-codex-mini (2025-11-13) - Nur Responses-API.
- Text- und Bildverarbeitung
- Strukturierte Ausgaben.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen
- Optimiert für Codex CLI & Codex VS Code Extension
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 30. September 2024
gpt-5.1-codex-max (2025-12-04) - Nur Responses-API.
- Text- und Bildverarbeitung
- Strukturierte Ausgaben.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen
- Optimiert für Codex CLI & Codex VS Code Extension
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 30. September 2024

Vorsicht

Es wird nicht empfohlen, Vorschaumodelle in der Produktion zu verwenden. Wir aktualisieren alle Bereitstellungen von Vorschaumodellen entweder auf zukünftige Vorschauversionen oder auf die neueste stabile, allgemein verfügbare Version. Modelle, die als Vorschau festgelegt sind, entsprechen nicht dem Standard-Azure OpenAI-Modelllebenszyklus.

Wichtig

  • gpt-5.1 reasoning_effort ist standardmäßig auf none eingestellt. Beachten Sie beim Upgraden von früheren Begründungsmodellen auf gpt-5.1, dass Sie möglicherweise Ihren Code aktualisieren müssen, um explizit eine reasoning_effort-Ebene zu übergeben, wenn Sie die Begründung ausführen möchten.

  • gpt-5.1-chat fügt integrierte Logikfunktionen hinzu. Wie andere Reasoning-Modelle unterstützt es keine Parameter wie temperature. Wenn Sie von gpt-5-chat (das kein Reasoning-Modell ist) auf gpt-5.1-chat umsteigen, stellen Sie sicher, dass Sie alle benutzerdefinierten Parameter wie temperature aus Ihrem Code entfernen, die von Reasoning-Modellen nicht unterstützt werden.

  • gpt-5.1-codex-max fügt Unterstützung für die Einstellung reasoning_effort zu xhigh. Begründungsaufwand none wird mit gpt-5.1-codex-max nicht unterstützt.

GPT-5

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl von Output-Token Schulungsdaten (bis zu)
gpt-5 (2025-08-07) - Argumentation
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen.
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 30. September 2024
gpt-5-mini (2025-08-07) - Argumentation
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen.
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 31. Mai 2024
gpt-5-nano (2025-08-07) - Argumentation
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen.
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 31. Mai 2024
gpt-5-chat (2025-08-07)
Vorschau
– API für Chatabschlusse.
- Antwort-API.
- Eingabe: Text/Bild
- Ausgabe: Nur Text
128,000 16,384 30. September 2024
gpt-5-chat (2025-10-03)
Vorschau1
– API für Chatabschlusse.
- Antwort-API.
- Eingabe: Text/Bild
- Ausgabe: Nur Text
128,000 16,384 30. September 2024
gpt-5-codex (2025-09-11) - Nur Responses-API.
- Eingabe: Text/Bild
- Ausgabe: Nur Text
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
- Vollständige Zusammenfassung der Funktionen
- Optimiert für Codex CLI & Codex VS Code Extension
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 -
gpt-5-pro (2025-10-06) - Argumentation
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen und Tools
- Vollständige Zusammenfassung der Funktionen.
400,000

Eingabe: 272.000
Ausgabe: 128.000
128,000 30. September 2024

Hinweis

1gpt-5-chat Version 2025-10-03 führt eine wesentliche Verbesserung mit Schwerpunkt auf emotionaler Intelligenz und Funktionen für die psychische Gesundheit ein. Dieses Upgrade integriert spezielle Datasets und verfeinerte Reaktionsstrategien, um die Fähigkeit des Modells zu verbessern:

  • Verstehen und interpretieren Sie den emotionalen Kontext genauer, wodurch differenzierte und einfühlsame Interaktionen ermöglicht werden.
  • Stellen Sie unterstützende, verantwortungsvolle Antworten in Unterhaltungen im Zusammenhang mit der psychischen Gesundheit bereit, um Vertraulichkeit und Einhaltung bewährter Methoden sicherzustellen.

Diese Verbesserungen zielen darauf ab, GPT-5-Chat kontextbewusster, menschenorientierter und zuverlässiger in Szenarien zu machen, in denen emotionale Ton- und Wohlbefinden-Überlegungen kritisch sind.

Vorsicht

Es wird nicht empfohlen, Vorschaumodelle in der Produktion zu verwenden. Wir aktualisieren alle Bereitstellungen von Vorschaumodellen entweder auf zukünftige Vorschauversionen oder auf die neueste stabile, allgemein verfügbare Version. Modelle, die als Vorschau festgelegt sind, entsprechen nicht dem Standard-Azure OpenAI-Modelllebenszyklus.

gpt-oss

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl von Output-Token Schulungsdaten (bis zu)
gpt-oss-120b 1 (Vorschau) - Nur Texteingabe/Textausgabe
– API für Chatabschlusse
-Streaming
- Funktionsaufrufe
- Strukturierte Ausgaben
-Argumentation
– Verfügbar zur Bereitstellung1 und über verwaltete Rechenressourcen
131,072 131,072 31. Mai 2024
gpt-oss-20b (Vorschau) - Nur Texteingabe/Textausgabe
– API für Chatabschlusse
-Streaming
- Funktionsaufrufe
- Strukturierte Ausgaben
-Argumentation
- Verfügbar über Managed Compute und Foundry Local
131,072 131,072 31. Mai 2024

1 Im Gegensatz zu anderen Azure OpenAI-Modellen erfordert gpt-oss-120b ein Foundry-Projekt zum Bereitstellen des Modells.

Bereitstellen mit Code

az cognitiveservices account deployment create \
  --name "Foundry-project-resource" \
  --resource-group "test-rg" \
  --deployment-name "gpt-oss-120b" \
  --model-name "gpt-oss-120b" \
  --model-version "1" \
  --model-format "OpenAI-OSS" \
  --sku-capacity 10 \
  --sku-name "GlobalStandard"

GPT-4.1-Serie

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl an Ausgabetokens Schulungsdaten (bis zu)
gpt-4.1 (2025-04-14) - Text- und Bildeingabe
- Textausgabe
– API für Chatabschlusse
– Antwort-API
-Streaming
- Funktionsaufrufe
- Strukturierte Ausgaben (Chatvervollständigungen)
- 1,047,576
- 300.000 (Standard- und provisionierte verwaltete Deployments)
- 128.000 (Batch-Bereitstellungen)
32,768 31. Mai 2024
gpt-4.1-nano (2025-04-14) - Text- und Bildeingabe
- Textausgabe
– API für Chatabschlusse
– Antwort-API
-Streaming
- Funktionsaufrufe
- Strukturierte Ausgaben (Chatvervollständigungen)
- 1,047,576
- 300.000 (Standard- und provisionierte verwaltete Deployments)
- 128.000 (Batch-Bereitstellungen)
32,768 31. Mai 2024
gpt-4.1-mini (2025-04-14) - Text- und Bildeingabe
- Textausgabe
– API für Chatabschlusse
– Antwort-API
-Streaming
- Funktionsaufrufe
- Strukturierte Ausgaben (Chatvervollständigungen)
- 1,047,576
- 300.000 (Standard- und provisionierte verwaltete Deployments)
- 128.000 (Batch-Bereitstellungen)
32,768 31. Mai 2024

Bekanntes Problem

Ein bekanntes Problem betrifft alle GPT 4.1-Serienmodelle. Große Tool- oder Funktionsaufrufdefinitionen, die 300.000 Token überschreiten, führen zu Fehlern, obwohl die Tokenkontextgrenze von 1 Millionen Der Modelle nicht erreicht wurde.

Die Fehler können je nach API-Aufruf und zugrunde liegenden Nutzlastmerkmalen variieren.

Dies sind die Fehlermeldungen für die Chatabschluss-API:

  • Error code: 400 - {'error': {'message': "This model's maximum context length is 300000 tokens. However, your messages resulted in 350564 tokens (100 in the messages, 350464 in the functions). Please reduce the length of the messages or functions.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}

  • Error code: 400 - {'error': {'message': "Invalid 'tools[0].function.description': string too long. Expected a string with maximum length 1048576, but got a string with length 2778531 instead.", 'type': 'invalid_request_error', 'param': 'tools[0].function.description', 'code': 'string_above_max_length'}}

Dies ist die Fehlermeldung für die Antwort-API:

  • Error code: 500 - {'error': {'message': 'The server had an error processing your request. Sorry about that! You can retry your request, or contact us through an Azure support request at: https://go.microsoft.com/fwlink/?linkid=2213926 if you keep seeing this error. (Please include the request ID d2008353-291d-428f-adc1-defb5d9fb109 in your email.)', 'type': 'server_error', 'param': None, 'code': None}}

Computerverwendungsvorschau

Ein experimentelles Modell, das für den Einsatz mit dem Computer-Use-Tool Responses API trainiert wurde.

Es kann mit Drittanbieterbibliotheken verwendet werden, um dem Modell die Steuerung von Maus- und Tastatureingaben zu ermöglichen, während Kontext aus Screenshots der aktuellen Umgebung abgerufen wird.

Vorsicht

Es wird nicht empfohlen, Vorschaumodelle in der Produktion zu verwenden. Wir aktualisieren alle Bereitstellungen von Vorschaumodellen entweder auf zukünftige Vorschauversionen oder auf die neueste stabile, allgemein verfügbare Version. Modelle, die als Vorschau festgelegt sind, entsprechen nicht dem Standard-Azure OpenAI-Modelllebenszyklus.

Für den Zugriff computer-use-previewist eine Registrierung erforderlich. Der Zugriff wird basierend auf den Berechtigungskriterien Microsoft gewährt. Kunden, die Zugriff auf andere Modelle mit eingeschränktem Zugriff haben, müssen weiterhin Zugriff für dieses Modell anfordern.

Um den Zugriff anzufordern, wechseln Sie zur computer-use-preview Anwendung mit eingeschränktem Zugriffsmodell. Wenn der Zugriff gewährt wird, müssen Sie eine Bereitstellung für das Modell erstellen.

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Kontextfenster Maximale Anzahl an Ausgabetokens Schulungsdaten (bis zu)
computer-use-preview (2025-03-11) Spezialisiertes Modell zur Verwendung mit dem Computer-Use-Tool der Responses API

-Werkzeuge
-Streaming
- Text (Eingabe/Ausgabe)
- Bild (Eingabe)
8,192 1,024 Oktober 2023

O-Serienmodelle

Die Azure OpenAI-Modelle der o‑Serie sind darauf ausgelegt, Aufgaben des logischen Denkens und der Problemlösung mit stärkerem Fokus und höherer Leistungsfähigkeit zu bewältigen. Diese Modelle verbringen mehr Zeit mit der Verarbeitung und dem Verständnis der Benutzeranforderung, wodurch sie im Vergleich zu früheren Iterationen außergewöhnlich stark in Bereichen wie Wissenschaft, Codierung und Mathematik sind.

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Maximale Anfrage (Token) Schulungsdaten (bis zu)
codex-mini (2025-05-16) Feinabgestimmte Version von o4-mini.
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen und Tools.
Vollständige Zusammenfassung der Funktionen.
Eingabe: 200.000
Ausgabe: 100.000
31. Mai 2024
o3-pro (2025-06-10) - Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen und Tools.
Vollständige Zusammenfassung der Funktionen.
Eingabe: 200.000
Ausgabe: 100.000
31. Mai 2024
o4-mini (2025-04-16) - Neues Reasoning-Modell, das verbesserte Schlussfolgerungsfähigkeiten bietet.
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen und Tools.
Vollständige Zusammenfassung der Funktionen.
Eingabe: 200.000
Ausgabe: 100.000
31. Mai 2024
o3 (2025-04-16) - Neues Reasoning-Modell, das verbesserte Schlussfolgerungsfähigkeiten bietet.
– API für Chatabschlusse.
- Antwort-API.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen, Tools und parallele Toolaufrufe.
Vollständige Zusammenfassung der Funktionen.
Eingabe: 200.000
Ausgabe: 100.000
31. Mai 2024
o3-mini (2025-01-31) - Erweiterte Vernunftfähigkeiten.
- Strukturierte Ausgaben.
- Nur Textverarbeitung.
- Funktionen und Tools.
Eingabe: 200.000
Ausgabe: 100.000
Oktober 2023
o1 (2024-12-17) - Erweiterte Vernunftfähigkeiten.
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- Funktionen und Tools.
Eingabe: 200.000
Ausgabe: 100.000
Oktober 2023
o1-preview 1 (2024-09-12) Ältere Vorschauversion. Eingabe: 128.000
Ausgabe: 32.768
Oktober 2023
o1-mini 2 (2024-09-12) Eine schnellere und kostengünstigere Option in der o1-Reihe, ideal für das Codieren von Vorgängen, die Geschwindigkeit und geringerer Ressourcenverbrauch erfordern.
- Die globale Standardbereitstellung ist standardmäßig verfügbar.
– (Regionale) Standardbereitstellungen sind derzeit nur für ausgewählte Kunden verfügbar, die im Rahmen des Releases o1-preview eingeschränkten Zugriff erhalten haben.
Eingabe: 128.000
Ausgabe: 65.536
Oktober 2023

1o1-preview ist nur für Kunden verfügbar, denen der Zugriff im Rahmen des ursprünglichen eingeschränkten Zugangs gewährt wurde.

2o1-mini steht derzeit allen Kunden für die Globale Standardbereitstellung zur Verfügung. Ausgewählten Kunden wurde Zugriff auf (regionale) Standardbereitstellungen für o1-mini im Rahmen des Releases o1-preview mit eingeschränktem Zugriff gewährt. Der Zugang zu o1-mini standardmäßigen (regionalen) Bereitstellungen wird derzeit nicht ausgeweitet.

o3-deep-research ist derzeit nur mit dem Foundry Agent Service verfügbar. Weitere Informationen finden Sie in der Deep Research-Toolanleitung.

Weitere Informationen zu erweiterten O-Serienmodellen finden Sie unter "Erste Schritte mit Argumenten".To learn more about advanced o-series models, see Getting started with reasoning models.

GPT-4o und GPT-4 Turbo

GPT-4o integriert Text und Bilder in ein einzelnes Modell, wodurch mehrere Datentypen gleichzeitig verarbeitet werden können. Dieser multimodale Ansatz verbessert die Genauigkeit und Reaktionsfähigkeit bei Interaktionen zwischen Mensch und Computer. GPT-4o gleicht GPT-4 Turbo in englischen Text- und Codierungsaufgaben ab und bietet gleichzeitig eine überlegene Leistung in nicht englischen Aufgaben und Visionsaufgaben, wobei neue Benchmarks für KI-Funktionen festgelegt werden.

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

GPT-4- und GPT-4 Turbo-Modelle

Diese Modelle können nur mit der Chatabschluss-API verwendet werden. Unter Model-Versionen erfahren Sie, wie Azure OpenAI Modellversionsupgrades verarbeitet. Informationen zum Anzeigen und Konfigurieren der Modellversionseinstellungen Ihrer GPT-4-Bereitstellungen finden Sie unter "Arbeiten mit Modellen ".

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

Modell-ID Beschreibung Maximale Anfrage (Token) Schulungsdaten (bis zu)
gpt-4o (2024-11-20)
GPT-4o (Omni)
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- JSON-Modus.
- Parallele Funktionsaufrufe.
– Verbesserte Genauigkeit und Reaktionsfähigkeit.
- Gleichwertigkeit bei englischen Text- und Programmieraufgaben im Vergleich zu GPT-4 Turbo with Vision.
- Überlegene Leistung in nicht englischen Sprachen und in Visionsaufgaben.
- Verbesserte kreative Schreibfähigkeit.
Eingabe: 128.000
Ausgabe: 16.384
Oktober 2023
gpt-4o (2024-08-06)
GPT-4o (Omni)
- Strukturierte Ausgaben.
- Text- und Bildverarbeitung.
- JSON-Modus.
- Parallele Funktionsaufrufe.
– Verbesserte Genauigkeit und Reaktionsfähigkeit.
- Gleichwertigkeit bei englischen Text- und Programmieraufgaben im Vergleich zu GPT-4 Turbo with Vision.
- Überlegene Leistung in nicht englischen Sprachen und in Visionsaufgaben.
Eingabe: 128.000
Ausgabe: 16.384
Oktober 2023
gpt-4o-mini (2024-07-18)
GPT-4o mini
- Schnelles, kostengünstiges, leistungsfähiges Modell ideal zum Ersetzen von GPT-3.5 Turbo-Modellen.
- Text- und Bildverarbeitung.
- JSON-Modus.
- Parallele Funktionsaufrufe.
Eingabe: 128.000
Ausgabe: 16.384
Oktober 2023
gpt-4o (2024-05-13)
GPT-4o (Omni)
- Text- und Bildverarbeitung.
- JSON-Modus.
- Parallele Funktionsaufrufe.
– Verbesserte Genauigkeit und Reaktionsfähigkeit.
- Gleichwertigkeit bei englischen Text- und Programmieraufgaben im Vergleich zu GPT-4 Turbo with Vision.
- Überlegene Leistung in nicht englischen Sprachen und in Visionsaufgaben.
Eingabe: 128.000
Ausgabe: 4.096
Oktober 2023
gpt-4 1 (Turbo-2024-04-09)
GPT-4 Turbo mit Vision
Neues allgemein verfügbares Modell.
- Ersatz für alle vorherigen GPT-4-Vorschaumodelle (vision-preview, 1106-Preview, 0125-Preview).
- Die Verfügbarkeit von Features unterscheidet sich derzeit je nach Eingabemethode und Bereitstellungstyp.
Eingabe: 128.000
Ausgabe: 4.096
Dezember 2023

1 Die bereitgestellte Version von gpt-4 Version turbo-2024-04-09 ist derzeit nur auf Text beschränkt. Weitere Informationen zu Provisioned Deployments finden Sie unter Anleitung zu Provisioned Deployments.

Vorsicht

Es wird nicht empfohlen, Vorschaumodelle in der Produktion zu verwenden. Wir aktualisieren alle Bereitstellungen von Vorschaumodellen entweder auf zukünftige Vorschauversionen oder auf die neueste stabile, allgemein verfügbare Version. Modelle, die als Vorschau festgelegt sind, entsprechen nicht dem Standard-Azure OpenAI-Modelllebenszyklus.

Einbettungen

text-embedding-3-large ist das neueste und fähigste Einbettungsmodell. Sie können kein Upgrade zwischen Einbettungsmodellen durchführen. Um von der Verwendung text-embedding-ada-002 zu text-embedding-3-largewechseln, müssen Sie neue Einbettungen generieren.

  • text-embedding-3-large
  • text-embedding-3-small
  • text-embedding-ada-002

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Funktionen

OpenAI berichtet, dass Tests zeigen, dass sowohl die großen als auch die kleinen Embedding-Modelle der dritten Generation beim MIRACL-Benchmark eine bessere durchschnittliche mehrsprachige Retrieval-Leistung bieten. Sie behalten weiterhin ihre Leistungsfähigkeit bei englischen Aufgaben mit dem MTEB-Benchmark bei.

Bewertungsmaßstab text-embedding-ada-002 text-embedding-3-small text-embedding-3-large
MIRACL-Mittelwert 31,4 44.0 54.9
MTEB-Mittelwert 61.0 62.3 64.6

Die Modelle der dritten Generation unterstützen die Reduzierung der Größe der Einbettung über einen neuen dimensions Parameter. Typischerweise sind größere Embeddings hinsichtlich Rechen-, Arbeitsspeicher- und Speicheraufwand teurer. Wenn Sie die Anzahl der Dimensionen anpassen können, erhalten Sie mehr Kontrolle über die Gesamtkosten und die Leistung. Der parameter dimensions wird in allen Versionen der OpenAI 1.x-Python-Bibliothek nicht unterstützt. Um diesen Parameter nutzen zu können, empfehlen wir, ein Upgrade auf die neueste Version durchzuführen: pip install openai --upgrade.

Die MTEB-Benchmarktests von OpenAI stellten fest, dass die Leistung auch dann etwas besser ist, wenn die Abmessungen der dritten Generation auf weniger als die 1.536 Dimensionen des text-embeddings-ada-002Modells reduziert werden.

Diese Modelle können nur mit Einbettungs-API-Anforderungen verwendet werden.

Modell-ID Maximale Anfrage (Token) Ausgabeabmessungen Schulungsdaten (bis zu)
text-embedding-ada-002 (Version 2) 8,192 1,536 September 2021
text-embedding-ada-002 (Version 1) 2,046 1,536 September 2021
text-embedding-3-large 8,192 3,072 September 2021
text-embedding-3-small 8,192 1,536 September 2021

Hinweis

Wenn Sie ein Array von Eingaben für die Einbettung senden, beträgt die maximale Anzahl von Eingabeelementen im Array pro Aufruf an den Einbettungsendpunkt 2.048.

Modelle der Bildgenerierung

Die Bildgenerierungsmodelle generieren Bilder aus Textaufforderungen, die der Benutzer bereitstellt. Bildgenerierungsmodelle umfassen gpt-image-1, , gpt-image-1-mini, gpt-image-1.5und gpt-image-2.

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Modell-ID Maximale Anfrage (Zeichen)
gpt-image-1 4,000
gpt-image-1-mini 4,000
gpt-image-1.5 4,000

Modelle der Videogenerierung

Sora ist ein KI-Modell von OpenAI, das realistische und fantasievolle Videoszenen aus Textanweisungen erstellen kann. Sora ist in der Vorschau.

Zu den Modellen der Videogenerierung gehören sora und sora-2.

Modell-ID Maximale Anfrage (Zeichen)
Sora 4,000

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

Audiomodelle

Audiomodelle in Azure OpenAI sind über die APIs realtime, completions und audio verfügbar.

Informationen zur Modellverfügbarkeit in allen Regionen, gruppiert nach Bereitstellungskategorie, finden Sie unter Region-Verfügbarkeit für foundry Models, die von Azure verkauft werden.

GPT-4o-Audiomodelle

Die GPT-4o-Audiomodelle sind Teil der GPT-4o-Modellfamilie und unterstützen entweder Konversationsinteraktionen mit geringer Latenz im Modus speech in, speech out oder die Audiogenerierung.

Vorsicht

Es wird nicht empfohlen, Vorschaumodelle in der Produktion zu verwenden. Wir aktualisieren alle Bereitstellungen von Vorschaumodellen entweder auf zukünftige Vorschauversionen oder auf die neueste stabile, allgemein verfügbare Version. Modelle, die als Vorschau festgelegt sind, entsprechen nicht dem Standard-Azure OpenAI-Modelllebenszyklus.

Details zu maximalen Anforderungstoken und Schulungsdaten sind in der folgenden Tabelle verfügbar:

Modell-ID Beschreibung Maximale Anfrage (Token) Schulungsdaten (bis zu)
gpt-4o-mini-audio-preview (2024-12-17)
Vorschau
Audiomodell für die Audio- und Textgenerierung. Eingabe: 128.000
Ausgabe: 16.384
September 2023
gpt-4o-audio-preview (2024-12-17) Audiomodell für die Audio- und Textgenerierung. Eingabe: 128.000
Ausgabe: 16.384
September 2023
gpt-4o-realtime-preview (2025-06-03) Audiomodell für die Echtzeitaudioverarbeitung. Eingabe: 32.000
Ausgabe: 4.096
Oktober 2023
gpt-4o-realtime-preview (2024-12-17) Audiomodell für die Echtzeitaudioverarbeitung. Eingabe: 16.000
Ausgabe: 4.096
Oktober 2023
gpt-4o-mini-realtime-preview (2024-12-17)
Vorschau
Audiomodell für die Echtzeitaudioverarbeitung. Eingabe: 128.000
Ausgabe: 4.096
Oktober 2023
gpt-audio(28.08.2025)
gpt-audio-mini(06.10.2025)
Audiomodell für die Audio- und Textgenerierung. Eingabe: 128,00
Ausgabe: 16.384
Oktober 2023
gpt-realtime (2025-08-28) (GA)
gpt-realtime-mini (2025-10-06)
gpt-realtime-mini (2025-12-15)
Audiomodell für die Echtzeitaudioverarbeitung. Eingabe: 32.00
Ausgabe: 4.096
Oktober 2023
gpt-audio-1.5 (2026-02-23) Audiomodell für die Audio- und Textgenerierung. Eingabe: 128,00
Ausgabe: 16.384
September 2024
gpt-realtime-1.5 (2026-02-23) Audiomodell für die Echtzeitaudioverarbeitung. Eingabe: 32.00
Ausgabe: 4.096
September 2024
gpt-realtime-2 (2026-05-07) Audiomodell für die Echtzeitaudioverarbeitung. Eingabe: 32.000
Ausgabe: 4.096
September 2024

Audio-API

Die Audiomodelle über die /audio-API können für Spracherkennung, Übersetzung und Sprachsynthese verwendet werden.

Sprach-zu-Text-Modelle

Modell-ID Beschreibung Max. Anforderung (Audiodateigröße)
whisper Allgemeines Spracherkennungsmodell. 25 MB
gpt-4o-transcribe (2025-03-20)
Vorschau
Sprach-zu-Text-Modell unterstützt von GPT-4o. 25 MB
gpt-4o-mini-transcribe (2025-03-20)
Vorschau
Sprach-zu-Text-Modell unterstützt von GPT-4o mini. 25 MB
gpt-4o-transcribe-diarize (2025-10-15)
Vorschau
Sprach-zu-Text-Modell mit automatischer Spracherkennung. 25 MB
gpt-4o-mini-transcribe (2025-12-15)
Vorschau
Sprach-zu-Text-Modell mit automatischer Spracherkennung. Verbesserte Transkriptionsgenauigkeit und Stabilität. 25 MB

Sprachübersetzungsmodelle

Modell-ID Beschreibung Max. Anforderung (Audiodateigröße)
whisper Allgemeines Spracherkennungsmodell. 25 MB

Text-zu-Sprache-Modelle (Vorschau)

Modell-ID Beschreibung
tts
Vorschau
Auf Geschwindigkeit optimiertes Text-in-Sprache-Modell
tts-hd
Vorschau
Für die Qualität optimiertes Text-zu-Sprache-Modell.
gpt-4o-mini-tts (2025-03-20) Text-zu-Sprache-Modell basierend auf GPT-4o mini.

Sie können die Stimme leiten, um in einem bestimmten Stil oder Ton zu sprechen.
gpt-4o-mini-tts (2025-12-15) Text-zu-Sprache-Modell basierend auf GPT-4o mini.

Sie können die Stimme leiten, um in einem bestimmten Stil oder Ton zu sprechen.

Optimierung von Modellen

Die folgenden Modelle werden für das Fine-Tuning unterstützt:

Modell-ID Standardregionen Global Entwickler Methoden Status Modalität
gpt-4o-mini
(2024-07-18)
Nord-Mittel-USA
Schweden Zentral
SFT GA Text zu Text
gpt-4o
(2024-08-06)
USA, Osten 2
Nord-Mittel-USA
Schweden Zentral
SFT, DPO GA Text und Vision zu Text
gpt-4.1
(2025-04-14)
Nord-Mittel-USA
Schweden Zentral
SFT, DPO GA Text und Vision zu Text
gpt-4.1-mini
(2025-04-14)
Nord-Mittel-USA
Schweden Zentral
SFT, DPO GA Text zu Text
gpt-4.1-nano (2025-04-14) Nord-Mittel-USA
Schweden Zentral
SFT, DPO GA Text zu Text
o4-mini
(2025-04-16)
USA, Osten 2
Schweden Zentral
RFT GA Text zu Text
gpt-5
(2025-08-07)
Nord-Mittel-USA
Schweden Zentral
RFT GA* Text zu Text
Ministral-3B
(2411)
Nicht unterstützt SFT Öffentliche Vorschau Text zu Text
Qwen-32B Nicht unterstützt SFT Öffentliche Vorschau Text zu Text
Llama-3.3-70B-Instruct Nicht unterstützt SFT Öffentliche Vorschau Text zu Text
gpt-oss-20b Nicht unterstützt SFT Öffentliche Vorschau Text zu Text

* Die GPT-5-Unterstützung für Reinforcement-Fine-Tuning ist allgemein verfügbar, der Zugriff ist jedoch beschränkt und nur auf Einladung möglich. Wenden Sie sich an Ihr Microsoft-Konto Team, wenn Sie sich für die Registrierung interessieren.

Oder Sie können ein zuvor fein abgestimmtes Modell optimieren, formatiert als base-model.ft-{jobid}.

Hinweis

Open-Source-Modelle (Ministral-3B, Qwen-32B, Llama-3.3-70B-Instruct, gpt-oss-20b) werden nur für Foundry-Ressourcen und in der neuen Foundry-Benutzeroberfläche unterstützt.

Hinweis

Globales Training bietet kostengünstigeres Training pro Token, aber keine Datenresidenz. Es ist derzeit für Foundry-Ressourcen in den folgenden Regionen verfügbar:

  • Australien Ost
  • Brasilien Süd
  • Kanada Zentral
  • Kanada Ost
  • Ost-USA
  • USA, Osten 2
  • Frankreich Zentral
  • Deutschland West Central
  • Italien Nord
  • Japan Ost (keine Vision Unterstützung)
  • Zentralkorea
  • Nord-Mittel-USA
  • Norwegen Ost
  • Polen Central (keine 4.1-Nano-Unterstützung)
  • Südostasien
  • Südafrika Nord
  • Süd-Mittel-USA
  • Südindien
  • Spanien Zentral
  • Schweden Zentral
  • Westschweiz
  • Schweiz Nord
  • Vereinigtes Königreich Süd
  • Westeuropa
  • USA, Westen
  • USA, Westen 3

Assistenten (Vorschau)

Für Assistenten benötigen Sie eine Kombination aus einem unterstützten Modell und einer unterstützten Region. Für bestimmte Tools und Funktionen sind die neuesten Modelle erforderlich. Die folgenden Modelle sind in der Assistenten-API, im SDK und im Foundry verfügbar. Die folgende Tabelle ist für die Standardbereitstellung vorgesehen. Informationen zur Verfügbarkeit bereitgestellter Durchsatzeinheiten finden Sie unter Bereitgestellte Durchsatzmodelle. Die aufgeführten Modelle und Regionen können sowohl mit Assistenten v1 als auch v2 verwendet werden. Sie können globale Standardmodelle verwenden, wenn sie in den folgenden Regionen unterstützt werden.

Region gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, 0613 gpt-4, 1106-Preview gpt-4, 0125-Vorschau gpt-4, Turbo-2024-04-09 gpt-4-32k, 0613 gpt-35-turbo, 0613 gpt-35-Turbo, 1106 gpt-35-Turbo, 0125 gpt-35-turbo-16k, 0613
australiaeast - - - - -
eastus - - - -
Eastus2 - - - -
francecentral - - - - - -
japaneast - - - - - - - - -
norwayeast - - - - - - - - - - -
Südindien - - - - - - - - -
schwedencentral - -
uksouth - - - - - -
westus - - - - -
westus3 - - - - - -

Modellrentierung

Die neuesten Informationen zu Modellrenten finden Sie im Modell-Ruhestandszeitplan.

Black Forest Labs Modelle, die von Azure verkauft werden

Black Forest Labs (BFL) FLUX Modelle bringen modernste Bildgenerierung in Microsoft Foundry, sodass Sie qualitativ hochwertige Bilder aus Textaufforderungen und Referenzbildern generieren und bearbeiten können. FLUX-Modelle unterstützen eine Reihe von Funktionen, einschließlich Text-zu-Bild-Generierung, Multireferenz-Bildbearbeitung und Kontextgenerierung und -bearbeitung.

Sie können diese Modelle über die BFL-Dienstanbieter-API und über die Images/Generationen und Images/Edits-Endpunkte ausführen.

Um mit FLUX-Modellen in Foundry zu arbeiten, finden Sie weitere Informationen unter Bereitstellen und Verwenden von FLUX-Modellen in Microsoft Foundry.

Modell Typ & API-Endpunkt Funktionen Bereitstellungstyp (Regionsverfügbarkeit)
FLUX.2-flex Bildgenerierung
- BFL-Dienstanbieter-API: <resource-name>/providers/blackforestlabs/v1/flux-2-flex
- Eingabe: Text und Bild (32.000 Token und bis zu 10 Bilderi)
- Ausgabe: Ein Bild
- Toolaufrufe: Nein
- Antwortformate: Bild (PNG und JPG)
- Wichtige Features: Feinkornierte Kontrolle; Multireferenzunterstützung für bis zu 10 Bilder
- Zusätzliche Parameter:
guidance: Steuert, wie genau die Ausgabe der Eingabeaufforderung folgt. Minimum: 1,5, maximum: 10, Default: 4.5. Höher = genauere Befolgung des Prompts.
steps: Anzahl der Ableitungsschritte. Maximum: 50, Standardwert: 50. Höher = mehr Details, langsamer.
- Globaler Standard (alle Regionen)
FLUX.2-pro Bildgenerierung
- BFL-Dienstanbieter-API: <resource-name>/providers/blackforestlabs/v1/flux-2-pro
- Eingabe: Text und Bild (32.000 Token und bis zu 8 Bilderii)
- Ausgabe: Ein Bild
- Toolaufrufe: Nein
- Antwortformate: Bild (PNG und JPG)
- Wichtige Funktionen: Unterstützung mehrerer Referenzbilder für bis zu 8 Bilder; stärker in realem Wissen verankert; höhere Ausgabeflexibilität; verbesserte Leistung
- Zusätzliche Parameter:(Nur in anbieterspezifischer API) Unterstützt alle Parameter.
- Globaler Standard (alle Regionen)
FLUX.1-Kontext-pro Bildgenerierung
- Bild-API: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
und
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- BFL-Dienstanbieter-API: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Eingabe: Text und Bild (5.000 Token und 1 Bild)
- Ausgabe: Ein Bild
- Toolaufrufe: Nein
- Antwortformate: Bild (PNG und JPG)
- Wichtige Features: Zeichenkonsistenz, erweiterte Bearbeitung
- Zusätzliche Parameter:(Nur in anbieterspezifischer API)seed, aspect ratio, , input_image, prompt_unsampling, safety_toleranceoutput_format
- Globaler Standard (alle Regionen)
FLUX-1.1-pro Bildgenerierung
- Bild-API: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- BFL-Dienstanbieter-API: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Eingabe: Text (5.000 Token und 1 Bild)
- Ausgabe: Ein Bild
- Toolaufrufe: Nein
- Antwortformate: Bild (PNG und JPG)
- Hauptmerkmale: Hohe Inferenzgeschwindigkeit, hohe Prompt-Treue, wettbewerbsfähige Preise, skalierbare Generierung
- Zusätzliche Parameter:(Nur in anbieterspezifischer API)width, height, , prompt_unsampling, seed, safety_toleranceoutput_format
- Globaler Standard (alle Regionen)

i,ii Unterstützung für mehrere Referenzbilder steht für FLUX.2 [pro] (Vorschau) und FLUX.2 [flex] (Vorschau) mithilfe der API, aber nicht im Playground zur Verfügung.

Von Azure angebotene Cohere-Modelle

Die Cohere-Modellfamilie umfasst verschiedene Modelle, die für unterschiedliche Anwendungsfälle optimiert sind, einschließlich Chat-Vervollständigungen, Rerank-/Textklassifizierung und Einbettungen. Cohere-Modelle sind für verschiedene Anwendungsfälle optimiert, die Gründe, Zusammenfassungen und Fragebeantwortungen umfassen.

Modell Typ Funktionen Bereitstellungstyp (Regionsverfügbarkeit)
Cohere-rerank-v4.0-pro Textklassifizierung (Neusortierung) - Eingabe: Text
- Ausgabe: Text
- Sprachen:en, fr, , es, itde, pt-br, jazh-cnarvihiruund idnl
- Toolaufrufe: Nein
- Antwortformate: JSON
- Globaler Standard (alle Regionen)
- Verwaltete Rechenleistung
Cohere-rerank-v4.0-fast Textklassifizierung (Neusortierung) - Eingabe: Text
- Ausgabe: Text
- Sprachen:en, fr, , es, itde, pt-br, jazh-cnarvihiruund idnl
- Toolaufrufe: Nein
- Antwortformate: JSON
- Globaler Standard (alle Regionen)
- Verwaltete Rechenleistung
Cohere-command-a Chatvervollständigung - Eingabe: Text (131.072 Token)
- Ausgabe: Text (8.182 Token)
- Sprachen:en, , fr, es, itde, pt-br, ja, ko, , , und zh-cnar
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
- Globaler Standard (alle Regionen)
embed-v-4-0 Einbettungen - Eingabe: Text (512 Token) und Bilder (2MM Pixel)
- Ausgabe: Vektor (256, 512, 1024, 1536 Dimensionen)
- Sprachen:en, , fr, es, itde, pt-br, ja, ko, , , und zh-cnar
- Globaler Standard (alle Regionen)

DeepSeek-Modelle, die von Azure verkauft werden

Die DeepSeek-Modellfamilie umfasst mehrere Reasoning-Modelle, die dank eines schrittweisen Trainingsprozesses besonders bei Aufgaben wie Sprachverarbeitung, wissenschaftlichem Schlussfolgern und Programmieren überzeugen.

Modell Typ Funktionen Bereitstellungstyp (Regionsverfügbarkeit)
DeepSeek-V4-Pro
Vorschau
Chatvervollständigung
(mit Begründungsinhalten)
- Eingabe: Text (1.000.000 Token)
- Ausgabe: Text (384.000 Token)
- Sprachen:en Und zh
- Toolaufrufe: Nein
- Antwortformate: Text, JSON
- Globaler Standard (alle Regionen)
DeepSeek-V4-Flash
Vorschau
Chatvervollständigung
(mit Begründungsinhalten)
- Eingabe: Text (1.000.000 Token)
- Ausgabe: Text (384.000 Token)
- Sprachen:en Und zh
- Toolaufrufe: Nein
- Antwortformate: Text, JSON
- Globaler Standard (alle Regionen)
DeepSeek-V3.2-Speciale Chatvervollständigung
(mit Begründungsinhalten)
- Eingabe: Text (128.000 Token)
- Ausgabe: Text (128.000 Token)
- Sprachen:en Und zh
- Toolaufrufe: Nein
- Antwortformate: Text, JSON
- Globaler Standard (alle Regionen)
DeepSeek-V3.2 Chatvervollständigung
(mit Begründungsinhalten)
- Eingabe: Text (128.000 Token)
- Ausgabe: Text (128.000 Token)
- Sprachen:en Und zh
- Toolaufrufe: Nein
- Antwortformate: Text, JSON
- Globaler Standard (alle Regionen)
DeepSeek-V3.1 Chatvervollständigung
(mit Begründungsinhalten)
- Eingabe: Text (131.072 Token)
- Ausgabe: Text (131.072 Token)
- Sprachen:en Und zh
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
- Globaler Standard (alle Regionen)
DeepSeek-R1-0528 Chatvervollständigung
(mit Begründungsinhalten)
- Eingabe: Text (163.840 Token)
- Ausgabe: Text (163.840 Token)
- Sprachen:en Und zh
- Toolaufrufe: Nein
- Antwortformate: Text
- Globaler Standard (alle Regionen)
- Global bereitgestellt (alle Regionen)
DeepSeek-V3-0324 Chatvervollständigung - Eingabe: Text (131.072 Token)
- Ausgabe: Text (131.072 Token)
- Sprachen:en Und zh
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
- Globaler Standard (alle Regionen)
- Global bereitgestellt (alle Regionen)
DeepSeek-R1 Chatvervollständigung
(mit Begründungsinhalten)
- Eingabe: Text (163.840 Token)
- Ausgabe: Text (163.840 Token)
- Sprachen:en Und zh
- Toolaufrufe: Nein
- Antwortformate: Text
- Globaler Standard (alle Regionen)
- Global bereitgestellt (alle Regionen)

Von Azure verkaufte Metamodelle

Meta-Llama-Modelle und -Tools sind eine Sammlung vortrainierter und feinabgestimmter generativer KI-Text- und Bild-Begründungs-Modelle. Metamodelle umfassen in ihrer Bandbreite:

  • Kleine Sprachmodelle (Small Language Models, SLMs) wie 1B- und 3B-Basismodelle und -Instruct-Modelle für Rückschlüsse auf dem Gerät und am Edge
  • Mittlere große Sprachmodelle (LLMs) wie 7B-, 8B- und 70B-Basis- und Instruct-Modelle
  • Hochleistungsmodelle wie Meta Llama 3.1-405B sind für Anwendungsfälle der synthetischen Datengenerierung und -destillation vorgesehen.
Modell Typ Funktionen Bereitstellungstyp (Regionsverfügbarkeit)
Llama-4-Maverick-17B-128E-Instruct-FP8 Chatvervollständigung - Eingabe: Text und Bilder (1M-Token)
- Ausgabe: Text (1M-Token)
- Sprachen:ar, , en, fr, dehi, id, it, pt, estl, , und thvi
- Toolaufrufe: Nein
- Antwortformate: Text
- Globaler Standard (alle Regionen)
Llama-3.3-70B-Instruct Chatvervollständigung - Eingabe: Text (128.000 Token)
- Ausgabe: Text (8.192 Token)
- Sprachen:en, , de, fr, itpt, hi, , und esth
- Toolaufrufe: Nein
- Antwortformate: Text
- Globaler Standard (alle Regionen)
- Global bereitgestellt (alle Regionen)

Mehrere Metamodelle stehen auch von Partnern und Communitys zur Verfügung.

Microsoft Modelle, die von Azure verkauft werden

Microsoft Modelle umfassen verschiedene Modellgruppen wie Model Router, MAI-Modelle, Phi-Modelle, KI-Modelle im Gesundheitswesen und vieles mehr. Mehrere Microsoft-Modelle sind auch von Partnern und der Community verfügbar.

Informationen zum Arbeiten mit MAI-Bildmodellen in Foundry finden Sie unter Deploy and use MAI image models in Microsoft Foundry.

Modell Typ Funktionen Bereitstellungstyp (Regionsverfügbarkeit)
MAI-Image-2.5-Flash
Vorschau
Bild-zu-Bild und Text-zu-Bild. Details finden Sie unter API-Endpunkte . - Eingabe: Text, Bild (JPEG- oder PNG-Format für Bildbearbeitungsworkflows)
- Ausgabe: Ein Bild
- Kontextlänge: 32.000 Token
- Toolaufrufe: Nein
- Antwortformate: Bild (PNG)
- Sprachen:en
- Wichtige Features: Hochwertige Text-zu-Bild-Generierung; Bildbearbeitung, die präzise, chirurgische Bearbeitungen unterstützt, ohne den Rest des Bilds zu stören; Möglichkeit, realistische Bilder mit konsistenter visueller Struktur zu erzeugen. Gut geeignet für Aufgaben wie Konzeptvisualisierung, kreative Inhaltsgenerierung, Bildbearbeitungsworkflows und Produktionsdesign.
- Parameter:width, , heightprompt
Mindestens 768×768 Pixel; Maximale Gesamtpixelanzahl 1.048.576 (entspricht 1024×1024). Beide Dimensionen können 1024 überschreiten, solange die Gesamtpixelanzahl innerhalb des Grenzwerts bleibt (z. B. 768×1365 ist eine gültige Größe).
- Globaler Standard (West Central US, Ost-USA, West-USA, Westeuropa, Schweden Zentral, Südindien, VAE Nord)
MAI-Image-2.5
Vorschau
Bild-zu-Bild und Text-zu-Bild. Details finden Sie unter API-Endpunkte . - Eingabe: Text, Bild (JPEG- oder PNG-Format für Bildbearbeitungsworkflows)
- Ausgabe: Ein Bild
- Kontextlänge: 32.000 Token
- Toolaufrufe: Nein
- Antwortformate: Bild (PNG)
- Sprachen:en
- Wichtige Features: Hochwertige Text-zu-Bild-Generierung; Bildbearbeitung, die präzise, chirurgische Bearbeitungen unterstützt, ohne den Rest des Bilds zu stören; Möglichkeit, realistische Bilder mit konsistenter visueller Struktur zu erzeugen. Gut geeignet für Aufgaben wie Konzeptvisualisierung, kreative Inhaltsgenerierung, Bildbearbeitungsworkflows und Produktionsdesign.
- Parameter:width, , heightprompt
Mindestens 768×768 Pixel; Maximale Gesamtpixelanzahl 1.048.576 (entspricht 1024×1024). Beide Dimensionen können 1024 überschreiten, solange die Gesamtpixelanzahl innerhalb des Grenzwerts bleibt (z. B. 768×1365 ist eine gültige Größe).
- Globaler Standard (West Central US, Ost-USA, West-USA, Westeuropa, Schweden Zentral, Südindien, VAE Nord)
MAI-Image-2e
Vorschau
Text-zu-Bild. Details finden Sie im API-Endpunkt . - Eingabe: Text
- Ausgabe: Ein Bild
- Kontextlänge: 32.000 Token
- Toolaufrufe: Nein
- Antwortformate: Bild (PNG)
- Sprachen:en
- Wichtige Features: Hochwertige Text-zu-Bild-Generierung; photorealistische Bildsynthese mit konsistenter visueller Struktur; gut geeignet für Produktbilder, Marketingvisuale, Markenobjekte und kommerzielle kreative Workflows.
- Parameter:width, , heightprompt
Mindestens 768×768 Pixel; Maximale Gesamtpixelanzahl 1.048.576 (entspricht 1024×1024). Beide Dimensionen können 1024 überschreiten, solange die Gesamtpixelanzahl innerhalb des Grenzwerts bleibt (z. B. 768×1365 ist eine gültige Größe).
- Globaler Standard (West Central US, Ost-USA, West-USA, Westeuropa, Schweden Zentral, Südindien, VAE Nord)
MAI-Image-2
Vorschau
Text-zu-Bild. Details finden Sie im API-Endpunkt . - Eingabe: Text
- Ausgabe: Ein Bild
- Kontextlänge: 32.000 Token
- Toolaufrufe: Nein
- Antwortformate: Bild (PNG)
- Sprachen:en
- Wichtige Features: Hochwertige Text-zu-Bild-Generierung; photorealistische Bildsynthese mit konsistenter visueller Struktur; gut geeignet für Produktbilder, Marketingvisuale, Markenobjekte und kommerzielle kreative Workflows.
- Parameter:width, , heightprompt
Mindestens 768×768 Pixel; Maximale Gesamtpixelanzahl 1.048.576 (entspricht 1024×1024). Beide Dimensionen können 1024 überschreiten, solange die Gesamtpixelanzahl innerhalb des Grenzwerts bleibt (z. B. 768×1365 ist eine gültige Größe).
- Globaler Standard (West Central US, Ost-USA, West-USA, Westeuropa, Schweden Zentral, Südindien, VAE Nord)
model-router 1 Chatvervollständigung Weitere Details in der Modellrouterübersicht.
- Eingabe: Text, Bild
- Ausgabe: Text (die maximale Anzahl der Ausgabetoken kann variieren2)
Kontextfenster: 200.0003
- Sprachen:en
- Globaler Standard (Ost-USA 2, Schweden Zentral)
- Data Zone Standard4 (USA, Osten 2, Schweden, Mitte)

1Version des Modell-Routers2025-11-18. Frühere Versionen (2025-08-07 und 2025-05-19) sind ebenfalls verfügbar.

2Maximale Anzahl an Ausgabetoken variiert je nach zugrunde liegendem Modell im Modellrouter. Beispielsweise 32.768 (GPT-4.1 series), 100.000 (o4-mini), 128.000 (gpt-5 reasoning models) und 16.384 (gpt-5-chat).

3 Größere Kontextfenster sind mit einigen der zugrunde liegenden Modelle des Modellrouters kompatibel. Dies bedeutet, dass ein API-Aufruf mit einem größeren Kontext nur erfolgreich ist, wenn die Eingabeaufforderung an eines dieser Modelle weitergeleitet wird. Andernfalls schlägt der Anruf fehl.

4 Abrechnung für Routerbereitstellungen des Data Zone Standard-Modells beginnt nicht vor dem 1. November 2025.

Mistral-Modelle, die von Azure verkauft werden

Modell Typ Funktionen Bereitstellungstyp (Regionsverfügbarkeit)
mistral-document-ai-2512 Bild-zu-Text - Eingabe: Bild- oder PDF-Seiten (30 Seiten, max. 30 MB PDF-Datei)
- Ausgabe: Text
- Sprachen:en
- Toolaufrufe: Nein
- Antwortformate: Text, JSON, Markdown
- Globaler Standard (alle Regionen)
- Datenzonenstandard (USA und EU)
Mistral-Large-3 Chatvervollständigung - Eingabe: Text, Bild
- Ausgabe: Text
- Sprachen:en, , fr, de, esit, pt, nl, zh, ja, , und koar
- Toolaufrufe: Ja
- Antwortformate: Text, JSON
- Globaler Standard (alle Regionen)
- Datenzonenstandard (USA und EU)

Mehrere Mistral-Modelle sind auch über Partner und die Community verfügbar.

Moonshot AI Modelle verkauft von Azure

Moonshot AI Modelle umfassen Kimi K2.6 (Vorschau) und Kimi K2.5 (Vorschau), multimodale Begründungsmodelle, die Text- und Bildeingabe akzeptieren.

Modell Typ Funktionen Bereitstellungstyp (Regionsverfügbarkeit)
Kimi-K2.6
Vorschau
Chatvervollständigung
(mit Begründungsinhalten)
- Eingabe: Text und Bild (262.144 Token)
- Ausgabe: Text (262.144 Token)
- Sprachen:en Und zh
- Toolaufrufe: Ja
- Antwortformate: Text
- Globaler Standard (alle Regionen)
Kimi-K2.5
Vorschau
Chatvervollständigung
(mit Begründungsinhalten)
- Eingabe: Text und Bild (262.144 Token)
- Ausgabe: Text (262.144 Token)
- Sprachen:en Und zh
- Toolaufrufe: Ja
- Antwortformate: Text
- Globaler Standard (alle Regionen)

Diese Modellsammlung finden Sie im Foundry-Portal.

xAI Modelle, die von Azure verkauft werden

Die Grok-Modelle von xAI in Foundry-Modellen umfassen verschiedene Modelle mit und ohne Schlussfolgerungsfunktion, die für Unternehmensanwendungen wie Datenextraktion, Codierung, Textzusammenfassung und agentische Anwendungen entwickelt wurden.

Für den Zugriff aufgrok-code-fast-1 (Vorschau) und grok-4 ist eine Registrierung erforderlich.

Modell Typ Funktionen Bereitstellungstyp (Regionsverfügbarkeit)
grok-4.3
Vorschau
Chatvervollständigung - Eingabe: Text (200.000 Token)
- Ausgabe: Text (8.192 Token)
- Sprachen:en
- Toolaufrufe: Ja
- Antwortformate: Text
- Globaler Standard (alle Regionen)
grok-4-20-reasoning
Vorschau
Chatvervollständigung - Eingabe: Text (262.000 Token)
- Ausgabe: Text (8.192 Token)
- Sprachen:en
- Toolaufrufe: Ja
- Antwortformate: Text
- Globaler Standard (alle Regionen)
grok-4-20-non-reasoning
Vorschau
Chatvervollständigung - Eingabe: Text (262.000 Token)
- Ausgabe: Text (8.192 Token)
- Sprachen:en
- Toolaufrufe: Ja
- Antwortformate: Text
- Globaler Standard (alle Regionen)
grok-4.1-fast-reasoning Chatvervollständigung - Eingabe: Text, Bild (128.000 Token)
- Ausgabe: Text (128.000 Token)
- Sprachen:en
- Toolaufrufe: Ja
- Antwortformate: Text
- Globaler Standard (alle Regionen)
grok-4.1-fast-non-reasoning Chatvervollständigung - Eingabe: Text, Bild (128.000 Token)
- Ausgabe: Text (128.000 Token)
- Sprachen:en
- Toolaufrufe: Ja
- Antwortformate: Text
- Globaler Standard (alle Regionen)
grok-4 Chatvervollständigung - Eingabe: Text (262.000 Token)
- Ausgabe: Text (8.192 Token)
- Sprachen:en
- Toolaufrufe: Ja
- Antwortformate: Text
- Globaler Standard (alle Regionen)
grok-code-fast-1 Chatvervollständigung - Eingabe: Text (256.000 Token)
- Ausgabe: Text (8.192 Token)
- Sprachen:en
- Toolaufrufe: Ja
- Antwortformate: Text
- Globaler Standard (alle Regionen)

Verfügbarkeit von Modellregionen nach Bereitstellungstyp

Microsoft Foundry bietet Kunden Auswahlmöglichkeiten in der Hostingstruktur, die ihren Geschäfts- und Nutzungsmustern entspricht. Der Dienst bietet zwei Hauptbereitstellungskategorien:

  • Standard: Verfügt über eine globale Bereitstellungsoption, die den Datenverkehr global routingt, um einen höheren Durchsatz bereitzustellen.
  • Provisioned: Verfügt außerdem über eine globale Bereitstellungsoption, sodass Kunden bereitgestellte Durchsatzeinheiten über Azure globale Infrastruktur erwerben und bereitstellen können.

Andere Bereitstellungskategorien wie Batch sind ebenfalls verfügbar. Weitere Informationen zu allen verfügbaren Modellbereitstellungstypen finden Sie unter Deployment-Typen für Microsoft Foundry Models.

Verfügbarkeit des globalen Standardmodells

Region FLUX.2-Flex FLUX.2-pro FLUX.1-Kontext-pro FLUX-1.1-pro Cohere-rerank-v4.0-pro Cohere-rerank-v4.0-fast cohere-command-a embed-v-4-0 DeepSeek-V3.2-Speciale DeepSeek-V3.2 DeepSeek-V3.1 DeepSeek-R1-0528 DeepSeek-V3-0324 DeepSeek-R1 Llama-4-Maverick-17B-128E-Instruct-FP8 Llama-3.3-70B-Instruct MAI-Image-2 Modell-Router mistral-document-ai-2512 mistral-document-ai-2505 Mistral-Large-3 Kimi-K2.5 grok-4-1-fast-reasoning grok-4-1-fast-non-reasoning grok-4-fast-reasoning grok-4-fast-non-reasoning grok-3 grok-3-mini
australiaeast - -
brasiliensouth - -
kanadacentral - -
canadaeast - -
centralus - -
eastus -
Eastus2 -
francecentral - -
germanywestcentral - -
italynorth - -
japaneast - -
japanwest - -
koreacentral - -
Northcentralus - -
norwayeast - -
Polenzentral - -
südafricanorth - -
southcentralus - -
Südindien -
spaincentral - -
schwedencentral
schweiznord - -
switzerlandwest - -
uaenorth - -
uksouth - -
Westcentralus -
Westeuropa -
westus -
westus2 - -
westus3 - -