Aktivieren der Prioritätsverarbeitung für Microsoft Foundry-Modelle

Die Prioritätsverarbeitung bietet eine geringe Latenzleistung mit der Flexibilität von Pay-as-you-go. In diesem Artikel aktivieren Sie die Prioritätsverarbeitung für eine Modellbereitstellung, überprüfen, welche Dienstebene Ihre Anforderungen verarbeitet hat, und überwachen die zugehörigen Kosten.

Voraussetzungen

Ein Azure-Abonnement – Create one for free.
Ein Microsoft Foundry-Projekt, bereitgestellt mit einem Modell des Bereitstellungstyps GlobalStandard oder DataZoneStandard.
API-Version 2025-12-01 oder höher.

Hauptanwendungsfälle

Konsistente, niedrige Latenz für reaktionsfähige Benutzeroberflächen.
Einfachheit der nutzungsabhängigen Abrechnung ohne langfristige Verpflichtungen.
Datenverkehr zu Geschäftszeiten oder mit Spitzen, der von einer skalierbaren, kosteneffizienten Leistung profitiert. Optional können Sie die Prioritätsverarbeitung mit bereitgestellten Durchsatzeinheiten (Provisioned Throughput Units, PTU) kombinieren, um eine gleichmäßige Kapazität und Kostenoptimierung zu erzielen.

Ziel-Latenz

Modell	Latenzzielwert²
gpt-5.4, 2026-03-05¹	99% > 50 Token pro Sekunde
gpt-5.2, 2025-12-11	99% > 50 Token pro Sekunde
gpt-5.1, 2025-11-13	99% > 50 Token pro Sekunde
gpt-4.1, 2025-04-14¹	99% > 80 Token pro Sekunde

¹ Lange Kontextanforderungen (d. h. Anforderungen, die mit mehr als 128k-Eingabeaufforderungstoken geschätzt werden) werden auf die Standardverarbeitung herabgestuft, und Sie werden mit dem Standardebenensatz belastet.

² Berechnet als p50-Anforderungslatenz pro 5 Minute.

Prioritätsverarbeitungsverfügbarkeit nach Bereitstellungstyp

Die Prioritätsverarbeitung kann in globalen Standardbereitstellungen oder Datenzonenstandardbereitstellungen (USA) aktiviert werden. Informationen zu den Preisen finden Sie auf der Azure OpenAI-Preisseite.

Globaler Standard
Datenzonenstandard

Globale Standardmodellverfügbarkeit

Region	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
australiaeast	-	✅	✅	✅
Brasilien Süd	-	✅	✅	✅
kanadacentral	-	✅	✅	✅
Kanada Ost	-	✅	✅	✅
centralus	-	✅	✅	✅
eastus	-	✅	✅	✅
eastus2	-	-	-	-
francecentral	-	✅	✅	✅
Deutschland West-Zentral	-	✅	✅	✅
italiennord	-	✅	✅	✅
Japan Ost	-	✅	✅	✅
koreacentral	-	✅	✅	✅
Northcentralus	-	✅	✅	✅
Norwegen Ost	-	✅	✅	✅
Polenzentral	✅	✅	✅	✅
Südafrika Nord	-	✅	✅	✅
southcentralus	✅	✅	✅	✅
southeastasia	-	✅	✅	✅
Südindien	-	✅	✅	✅
spaincentral	-	✅	✅	✅
schwedencentral	✅	✅	✅	✅
SchweizNord	-	✅	✅	✅
switzerlandwest	-	✅	✅	✅
uaenorth	-	✅	✅	✅
uksouth	-	✅	✅	✅
Westeuropa	-	✅	✅	✅
westus	-	✅	✅	✅
westus3	-	✅	✅	✅

Verfügbarkeit des Standardmodells der Datenzone

Region	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
centralus	✅	✅	✅	✅
eastus	✅	✅	✅	✅
eastus2	-	-	-	-
Northcentralus	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅
westus	✅	✅	✅	✅
westus3	✅	✅	✅	✅

Aktivieren der Prioritätsverarbeitung auf Bereitstellungsebene

Sie können die Prioritätsverarbeitung auf Bereitstellungsebene und (optional) auf Anforderungsebene aktivieren.

Hinweis

Die Prioritätsverarbeitung kann in globalen Standard- oder Datenzonen-Standardbereitstellungen (US) aktiviert werden. Die Prioritätsverarbeitung verwendet dasselbe Kontingent wie die Standardverarbeitung.

Aktivieren Sie im Microsoft Foundry-Portal die Option "Prioritätsverarbeitung " auf der Seite "Bereitstellungsdetails", wenn Sie die Bereitstellung erstellen oder die Einstellung eines bereitgestellten Modells aktualisieren, indem Sie die Bereitstellungsdetails bearbeiten.

Hinweis

Wenn Sie code verwenden möchten, um die Prioritätsverarbeitung auf Bereitstellungsebene zu aktivieren, können Sie dies über die REST-API für die Bereitstellung tun, indem Sie das service_tier Attribut wie folgt festlegen: "properties" : {"service_tier" : "priority"} Zulässige Werte für das service_tier Attribut sind default und priority. default impliziert die Standardverarbeitung, während priority die Prioritätsverarbeitung ermöglicht.

Sobald eine Modellbereitstellung für die Verwendung der Prioritätsverarbeitung konfiguriert ist, können Sie mit dem Senden von Anforderungen an das Modell beginnen.

Anzeigen von Nutzungsmetriken

Sie können das Auslastungsmaß für Ihre Ressource im Abschnitt Azure Überwachen im Azure portal anzeigen.

Um das Volumen der Anforderungen darzustellen, die durch Standard- versus Prioritätsverarbeitung abgewickelt werden, getrennt nach der Dienststufe (Standard oder Priorität), die in der ursprünglichen Anforderung angegeben war:

Melden Sie sich bei https://portal.azure.com an.
Wechseln Sie zu Ihrer Azure OpenAI-Ressource, und wählen Sie im linken Navigationsbereich die Option Metrics aus.
Fügen Sie auf der Metrikseite die Azure OpenAI-AnforderungenMetrik hinzu. Sie können auch andere Metriken wie Azure OpenAI-Latenz, Azure OpenAI-Verwendung und andere auswählen.
Wählen Sie "Filter hinzufügen" aus, um die Standardbereitstellung auszuwählen, für die Prioritätsverarbeitungsanforderungen verarbeitet wurden.
Wählen Sie "Aufteilen anwenden" aus, um die Werte nach ServiceTierRequest und ServiceTierResponse aufzuteilen.

Weitere Informationen zur Überwachung Ihrer Bereitstellungen finden Sie unter Monitor Azure OpenAI.

Kosten überwachen

Sie können eine Aufschlüsselung der Kosten für Prioritäts- und Standardanforderungen auf der Kostenanalyseseite des Azure portal anzeigen, indem Sie wie folgt nach Bereitstellungsnamen und Abrechnungstags filtern:

Wechseln Sie zur Kostenanalyseseite im Azure portal.
(Optional) Filtern nach Ressource.
Filtern nach Bereitstellungsname: Fügen Sie einen Filter für Abrechnungs-Tag> hinzu, wählen Sie Bereitstellung als Wert aus und wählen Sie dann Ihren Bereitstellungsnamen.

Informationen zur Preisgestaltung für die Prioritätsverarbeitung finden Sie in der Azure OpenAI Service Preisübersicht.

Aktivieren der Prioritätsverarbeitung auf Anforderungsebene

Die Aktivierung der Prioritätsverarbeitung auf Anforderungsebene ist optional. Sowohl die API für Chatabschlusse als auch die Antwort-API verfügen über ein optionales Attribut service_tier , das den Verarbeitungstyp angibt, der beim Verarbeiten einer Anforderung verwendet werden soll. Das folgende Beispiel zeigt, wie service_tier in einer Antwortanfrage in priority festgelegt werden kann.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Verwenden Sie das service_tier Attribut, um die Einstellung auf Bereitstellungsebene außer Kraft zu setzen. service_tier kann die Werte auto, default und priority haben.

Wenn Sie das Attribut nicht festlegen, wird es standardmäßig auf auto.
service_tier = auto bedeutet, dass die Anforderung die in der Bereitstellung konfigurierte Dienstebene verwendet.
service_tier = default bedeutet, dass die Anforderung die Standardpreise und -leistung für das ausgewählte Modell verwendet.
service_tier = priority bedeutet, dass die Anforderung die Dienstebene für die Prioritätsverarbeitung verwendet.

In der folgenden Tabelle wird zusammengefasst, für welche Dienstebene Ihre Anforderungen basierend auf den Einstellungen service_tierauf Bereitstellungsebene und Anforderungsebene verarbeitet werden.

Einstellung auf Bereitstellungsebene	Einstellungen auf Anfrageebene	Anforderung, die von Dienstebene verarbeitet wird
Standardwert	Auto, Standard	Norm
Standardwert	priority	Vorrangverarbeitung
priority	Auto, Priorität	Vorrangverarbeitung
priority	Standardwert	Norm

Einschränkungen

Der Dienst unterstützt derzeit keine regionalen Standardbereitstellungen und EU-Datazone-Standardbereitstellungen.
Der Dienst leitet einige Prioritätsanforderungen möglicherweise während dieser Szenarien erneut an die Standardverarbeitung* weiter:
- Wenn ein schneller Anstieg der Token für die Prioritätsverarbeitung pro Minute dazu führt, dass das Rampenraten-Limit erreicht wird. Derzeit wird der Ratengrenzwert für Hochfahren als Erhöhung des Datenverkehrs um mehr als 50% Token pro Minute in weniger als 15 Minuten definiert.
- In Zeiten von Spitzenanforderungen für die Prioritätsverarbeitung.
- Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind.
Tipp

Wenn Sie regelmäßig auf Ratengrenzwerte für Hochfahren stoßen, sollten Sie den Kauf von PTU anstelle oder zusätzlich zur Prioritätsverarbeitung in Betracht ziehen.

* Der Dienst rechnet Anfragen, die vom Standard Service-Tier verarbeitet werden, zu Standardtarifen ab. Anforderungen, die von der Standardmäßigen Dienstebene verarbeitet werden, sind in der Antwort enthalten service_tier = default , während Anforderungen, die von der Prioritätsverarbeitungsstufe verarbeitet werden, in die Antwort einbezogen werden service_tier = priority .

Problembehandlung

Thema	Ursache	Beschluss
Anforderungen, die auf die Standardebene herabgestuft wurden	Eine der folgenden Situationen: - Wenn der Datenverkehr in weniger als 15 Minuten um mehr als 50 % der Token pro Minute ansteigt, stößt du an das Limit für die Rampenrate. – Anfragen, die während Zeiträumen von Spitzenanforderungen zur Prioritätsverarbeitung gesendet wurden. – Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind.	- Erhöhe den Datenverkehr schrittweise, wenn du auf Ramp Rate Limits gestoßen bist. - Erwägen Sie den Erwerb von PTU für die stetige Kapazität.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-24