Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Die Prioritätsverarbeitung bietet eine geringe Latenzleistung mit der Flexibilität von Pay-as-you-go. In diesem Artikel aktivieren Sie die Prioritätsverarbeitung für eine Modellbereitstellung, überprüfen, welche Dienstebene Ihre Anforderungen verarbeitet hat, und überwachen die zugehörigen Kosten.
Voraussetzungen
- Ein Azure-Abonnement – Create one for free.
- Ein Microsoft Foundry-Projekt, bereitgestellt mit einem Modell des Bereitstellungstyps
GlobalStandardoderDataZoneStandard. - API-Version
2025-12-01oder höher.
Hauptanwendungsfälle
- Konsistente, niedrige Latenz für reaktionsfähige Benutzeroberflächen.
- Einfachheit der nutzungsabhängigen Abrechnung ohne langfristige Verpflichtungen.
- Datenverkehr zu Geschäftszeiten oder mit Spitzen, der von einer skalierbaren, kosteneffizienten Leistung profitiert. Optional können Sie die Prioritätsverarbeitung mit bereitgestellten Durchsatzeinheiten (Provisioned Throughput Units, PTU) kombinieren, um eine gleichmäßige Kapazität und Kostenoptimierung zu erzielen.
Ziel-Latenz
| Modell | Latenzzielwert2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 Token pro Sekunde |
| gpt-5.2, 2025-12-11 | 99% > 50 Token pro Sekunde |
| gpt-5.1, 2025-11-13 | 99% > 50 Token pro Sekunde |
| gpt-4.1, 2025-04-141 | 99% > 80 Token pro Sekunde |
1 Lange Kontextanforderungen (d. h. Anforderungen, die mit mehr als 128k-Eingabeaufforderungstoken geschätzt werden) werden auf die Standardverarbeitung herabgestuft, und Sie werden mit dem Standardebenensatz belastet.
2 Berechnet als p50-Anforderungslatenz pro 5 Minute.
Prioritätsverarbeitungsverfügbarkeit nach Bereitstellungstyp
Die Prioritätsverarbeitung kann in globalen Standardbereitstellungen oder Datenzonenstandardbereitstellungen (USA) aktiviert werden. Informationen zu den Preisen finden Sie auf der Azure OpenAI-Preisseite.
Globale Standardmodellverfügbarkeit
| Region | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ |
| Brasilien Süd | - | ✅ | ✅ | ✅ |
| kanadacentral | - | ✅ | ✅ | ✅ |
| Kanada Ost | - | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ |
| eastus2 | - | - | - | - |
| francecentral | - | ✅ | ✅ | ✅ |
| Deutschland West-Zentral | - | ✅ | ✅ | ✅ |
| italiennord | - | ✅ | ✅ | ✅ |
| Japan Ost | - | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ |
| Northcentralus | - | ✅ | ✅ | ✅ |
| Norwegen Ost | - | ✅ | ✅ | ✅ |
| Polenzentral | ✅ | ✅ | ✅ | ✅ |
| Südafrika Nord | - | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | ✅ | ✅ |
| Südindien | - | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ |
| schwedencentral | ✅ | ✅ | ✅ | ✅ |
| SchweizNord | - | ✅ | ✅ | ✅ |
| switzerlandwest | - | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ |
| Westeuropa | - | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ |
Aktivieren der Prioritätsverarbeitung auf Bereitstellungsebene
Sie können die Prioritätsverarbeitung auf Bereitstellungsebene und (optional) auf Anforderungsebene aktivieren.
Hinweis
Die Prioritätsverarbeitung kann in globalen Standard- oder Datenzonen-Standardbereitstellungen (US) aktiviert werden. Die Prioritätsverarbeitung verwendet dasselbe Kontingent wie die Standardverarbeitung.
Aktivieren Sie im Microsoft Foundry-Portal die Option "Prioritätsverarbeitung " auf der Seite "Bereitstellungsdetails", wenn Sie die Bereitstellung erstellen oder die Einstellung eines bereitgestellten Modells aktualisieren, indem Sie die Bereitstellungsdetails bearbeiten.
Hinweis
Wenn Sie code verwenden möchten, um die Prioritätsverarbeitung auf Bereitstellungsebene zu aktivieren, können Sie dies über die REST-API für die Bereitstellung tun, indem Sie das service_tier Attribut wie folgt festlegen: "properties" : {"service_tier" : "priority"} Zulässige Werte für das service_tier Attribut sind default und priority.
default impliziert die Standardverarbeitung, während priority die Prioritätsverarbeitung ermöglicht.
Sobald eine Modellbereitstellung für die Verwendung der Prioritätsverarbeitung konfiguriert ist, können Sie mit dem Senden von Anforderungen an das Modell beginnen.
Anzeigen von Nutzungsmetriken
Sie können das Auslastungsmaß für Ihre Ressource im Abschnitt Azure Überwachen im Azure portal anzeigen.
Um das Volumen der Anforderungen darzustellen, die durch Standard- versus Prioritätsverarbeitung abgewickelt werden, getrennt nach der Dienststufe (Standard oder Priorität), die in der ursprünglichen Anforderung angegeben war:
- Melden Sie sich bei https://portal.azure.com an.
- Wechseln Sie zu Ihrer Azure OpenAI-Ressource, und wählen Sie im linken Navigationsbereich die Option Metrics aus.
- Fügen Sie auf der Metrikseite die Azure OpenAI-AnforderungenMetrik hinzu. Sie können auch andere Metriken wie Azure OpenAI-Latenz, Azure OpenAI-Verwendung und andere auswählen.
- Wählen Sie "Filter hinzufügen" aus, um die Standardbereitstellung auszuwählen, für die Prioritätsverarbeitungsanforderungen verarbeitet wurden.
- Wählen Sie "Aufteilen anwenden" aus, um die Werte nach ServiceTierRequest und ServiceTierResponse aufzuteilen.
Weitere Informationen zur Überwachung Ihrer Bereitstellungen finden Sie unter Monitor Azure OpenAI.
Kosten überwachen
Sie können eine Aufschlüsselung der Kosten für Prioritäts- und Standardanforderungen auf der Kostenanalyseseite des Azure portal anzeigen, indem Sie wie folgt nach Bereitstellungsnamen und Abrechnungstags filtern:
- Wechseln Sie zur Kostenanalyseseite im Azure portal.
- (Optional) Filtern nach Ressource.
- Filtern nach Bereitstellungsname: Fügen Sie einen Filter für Abrechnungs-Tag> hinzu, wählen Sie Bereitstellung als Wert aus und wählen Sie dann Ihren Bereitstellungsnamen.
Informationen zur Preisgestaltung für die Prioritätsverarbeitung finden Sie in der Azure OpenAI Service Preisübersicht.
Aktivieren der Prioritätsverarbeitung auf Anforderungsebene
Die Aktivierung der Prioritätsverarbeitung auf Anforderungsebene ist optional. Sowohl die API für Chatabschlusse als auch die Antwort-API verfügen über ein optionales Attribut service_tier , das den Verarbeitungstyp angibt, der beim Verarbeiten einer Anforderung verwendet werden soll. Das folgende Beispiel zeigt, wie service_tier in einer Antwortanfrage in priority festgelegt werden kann.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Verwenden Sie das service_tier Attribut, um die Einstellung auf Bereitstellungsebene außer Kraft zu setzen.
service_tier kann die Werte auto, default und priority haben.
Wenn Sie das Attribut nicht festlegen, wird es standardmäßig auf
auto.service_tier = autobedeutet, dass die Anforderung die in der Bereitstellung konfigurierte Dienstebene verwendet.service_tier = defaultbedeutet, dass die Anforderung die Standardpreise und -leistung für das ausgewählte Modell verwendet.service_tier = prioritybedeutet, dass die Anforderung die Dienstebene für die Prioritätsverarbeitung verwendet.
In der folgenden Tabelle wird zusammengefasst, für welche Dienstebene Ihre Anforderungen basierend auf den Einstellungen service_tierauf Bereitstellungsebene und Anforderungsebene verarbeitet werden.
| Einstellung auf Bereitstellungsebene | Einstellungen auf Anfrageebene | Anforderung, die von Dienstebene verarbeitet wird |
|---|---|---|
| Standardwert | Auto, Standard | Norm |
| Standardwert | priority | Vorrangverarbeitung |
| priority | Auto, Priorität | Vorrangverarbeitung |
| priority | Standardwert | Norm |
Einschränkungen
Der Dienst unterstützt derzeit keine regionalen Standardbereitstellungen und EU-Datazone-Standardbereitstellungen.
Der Dienst leitet einige Prioritätsanforderungen möglicherweise während dieser Szenarien erneut an die Standardverarbeitung* weiter:
- Wenn ein schneller Anstieg der Token für die Prioritätsverarbeitung pro Minute dazu führt, dass das Rampenraten-Limit erreicht wird. Derzeit wird der Ratengrenzwert für Hochfahren als Erhöhung des Datenverkehrs um mehr als 50% Token pro Minute in weniger als 15 Minuten definiert.
- In Zeiten von Spitzenanforderungen für die Prioritätsverarbeitung.
- Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind.
Tipp
Wenn Sie regelmäßig auf Ratengrenzwerte für Hochfahren stoßen, sollten Sie den Kauf von PTU anstelle oder zusätzlich zur Prioritätsverarbeitung in Betracht ziehen.
* Der Dienst rechnet Anfragen, die vom Standard Service-Tier verarbeitet werden, zu Standardtarifen ab. Anforderungen, die von der Standardmäßigen Dienstebene verarbeitet werden, sind in der Antwort enthalten
service_tier = default, während Anforderungen, die von der Prioritätsverarbeitungsstufe verarbeitet werden, in die Antwort einbezogen werdenservice_tier = priority.
Problembehandlung
| Thema | Ursache | Beschluss |
|---|---|---|
| Anforderungen, die auf die Standardebene herabgestuft wurden | Eine der folgenden Situationen: - Wenn der Datenverkehr in weniger als 15 Minuten um mehr als 50 % der Token pro Minute ansteigt, stößt du an das Limit für die Rampenrate. – Anfragen, die während Zeiträumen von Spitzenanforderungen zur Prioritätsverarbeitung gesendet wurden. – Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind. |
- Erhöhe den Datenverkehr schrittweise, wenn du auf Ramp Rate Limits gestoßen bist. - Erwägen Sie den Erwerb von PTU für die stetige Kapazität. |