Freigeben über


Aktivieren der Prioritätsverarbeitung für Microsoft Foundry-Modelle (Vorschau) (klassisch)

Hinweis

Dieses Dokument bezieht sich auf das Microsoft Foundry(klassische) Portal.

🔍 Zeigen Sie die Microsoft Foundry-Dokumentation (neu) an, um mehr über das neue Portal zu erfahren.

Von Bedeutung

Die Prioritätsverarbeitung befindet sich in der Vorschau und ist nur auf Einladung verfügbar. Registrieren Sie sich hier , um benachrichtigt zu werden, wenn sie umfassender verfügbar ist.

Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel (SLA) bereitgestellt und ist nicht für Produktionsworkloads vorgesehen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Die Prioritätsverarbeitung bietet eine geringe Latenzleistung mit der Flexibilität von Pay-as-you-go. Sie arbeitet auf einem Pay-as-you-go-Tokenmodell und bietet schnelle Reaktionszeiten ohne langfristige Vertragsverpflichtungen. In diesem Artikel aktivieren Sie die Prioritätsverarbeitung für eine Modellbereitstellung, überprüfen, welche Dienstebene Ihre Anforderungen verarbeitet hat, und überwachen die zugehörigen Kosten.

Voraussetzungen

  • Azure-Abonnement – kostenloses Abonnement erstellen.
  • Ein Microsoft Foundry-Projekt mit einem Modell des Bereitstellungstyps GlobalStandard oder DataZoneStandard bereitgestellt.
  • Zulassung zur Vorschau auf die Prioritätsverarbeitung Registrieren Sie sich hier , um benachrichtigt zu werden, wenn die Prioritätsverarbeitung umfassender verfügbar ist.
  • API-Version 2025-10-01-preview oder höher.

Überblick

Vorteile

  • Vorhersehbare niedrige Latenz: Schnellere, konsistentere Tokengenerierung.
  • Einfach zu verwendende Flexibilität: Wie die standardmäßige Pay-as-you-go-Verarbeitung erfolgt die Zugriffsprioritätsverarbeitung auf flexibler, pay-as-you-go-Basis, anstatt im Voraus Bereitstellung und Reservierungen zu verlangen.

Hauptanwendungsfälle

  • Konsistente, niedrige Latenz für reaktionsfähige Benutzeroberflächen.
  • Einfachheit der nutzungsabhängigen Abrechnung ohne langfristige Verpflichtungen.
  • Geschäftszeiten- oder bursty-Datenverkehr, der von skalierbarer, kosteneffizienter Leistung profitiert. Optional können Sie die Prioritätsverarbeitung mit bereitgestellten Durchsatzeinheiten (PTU) kombinieren, um die Kapazität und Kostenoptimierung zu verbessern.

Grenzen

  • Rampenlimit: Eine schnelle Erhöhung Ihrer Prioritätsverarbeitungstoken pro Minute kann dazu führen, dass Rampenbegrenzungen erreicht werden. Wenn Sie das Rampenratenlimit überschreiten, sendet der Dienst möglicherweise stattdessen zusätzlichen Datenverkehr an die Standardverarbeitung.

  • Quote: Die Prioritätsverarbeitung verwendet dasselbe Kontingent wie die Standardverarbeitung. Dies bedeutet, dass Ihre Bereitstellung mit aktivierter Prioritätsverarbeitung Kontingente aus Ihrer vorhandenen Standardzuordnung verbraucht.

Unterstützung für die Prioritätsverarbeitung

Globale Standardmodellverfügbarkeit

Region gpt-4.1, 2025-04-14
Eastus 2
schwedencentral
westus3

Hinweis

Die Verfügbarkeit von Modell und Region kann während des Vorschauzeitraums erweitert werden. Auf dieser Seite finden Sie Updates.

Bekannte Probleme

Die Prioritätsverarbeitung hat derzeit diese Einschränkungen, und Korrekturen werden ausgeführt:

  • Langer Kontextgrenzwert für gpt-4.1: Der Dienst unterstützt keine Anforderungen, die 128.000 Token überschreiten, und gibt einen HTTP 400-Fehler zurück.

  • Keine Unterstützung für PTU-Überlauf: Der Dienst unterstützt noch keinen PTU-Überlauf auf eine Bereitstellung mit aktivierter Prioritätsverarbeitung. Wenn Sie ein Überlaufverhalten benötigen, implementieren Sie Ihre eigene Logik, z. B. mithilfe der Azure-API-Verwaltung.

  • Falscher Wert für service_tier bei Verwendung von Streaming in der Antworten-API: Wenn Streaming-Antworten über die Antworten-API gestreamt werden, kann das service_tier Feld möglicherweise "Priorität" anzeigen, selbst wenn Kapazitätsbeschränkungen oder Rampenbeschränkungen dazu führen, dass die Anforderung von der Standardstufe bereitgestellt wird. In diesem Fall lautet der erwartete Wert service_tier "default".

Aktivieren der Prioritätsverarbeitung auf Bereitstellungsebene

Sie können die Prioritätsverarbeitung auf Bereitstellungsebene und (optional) auf Anforderungsebene aktivieren.

Im Microsoft Foundry-Portal können Sie die Prioritätsverarbeitung während der Bereitstellungseinrichtung aktivieren. Aktivieren Sie die Option "Prioritätsverarbeitung (Vorschau)" auf der Seite mit den Bereitstellungsdetails, wenn Sie die Bereitstellung erstellen oder die Einstellung aktualisieren, indem Sie die Bereitstellungsdetails eines bereitgestellten Modells bearbeiten.

Screenshot, der zeigt, wie die Prioritätsverarbeitung aktiviert wird, indem die Einstellungen eines bereitgestellten Modells im Foundry-Portal aktualisiert werden.

Hinweis

Wenn Sie code verwenden möchten, um die Prioritätsverarbeitung auf Bereitstellungsebene zu aktivieren, können Sie dies über die REST-API für die Bereitstellung tun, indem Sie das service_tier Attribut wie folgt festlegen: "properties" : {"service_tier" : "priority"} Zulässige Werte für das service_tier Attribut sind default und priority. default impliziert die Standardverarbeitung, während priority die Prioritätsverarbeitung ermöglicht.

Sobald eine Modellbereitstellung für die Verwendung der Prioritätsverarbeitung konfiguriert ist, können Sie mit dem Senden von Anforderungen an das Modell beginnen.

Anzeigen von Nutzungsmetriken

Sie können das Nutzungsmaß für Ihre Ressource im Azure Monitor-Abschnitt im Azure-Portal anzeigen.

Um das Volumen der Anforderungen darzustellen, die durch Standard- versus Prioritätsverarbeitung abgewickelt werden, getrennt nach der Dienststufe (Standard oder Priorität), die in der ursprünglichen Anforderung angegeben war:

  1. Melden Sie sich bei https://portal.azure.coman.
  2. Wechseln Sie zu Ihrer Azure OpenAI-Ressource und wählen Sie Metriken im linken Navigationsbereich aus.
  3. Fügen Sie auf der Seite "Metriken" die Metrik "Azure OpenAI-Anforderungen" hinzu . Sie können auch andere Metriken wie Azure OpenAI-Latenz, Azure OpenAI-Verwendung und andere auswählen.
  4. Wählen Sie "Filter hinzufügen" aus, um die Standardbereitstellung auszuwählen, für die Prioritätsverarbeitungsanforderungen verarbeitet wurden.
  5. Wählen Sie "Aufteilen anwenden" aus, um die Werte nach ServiceTierRequest und ServiceTierResponse aufzuteilen.

Screenshot der Prioritätsverarbeitungsauslastung auf der Metrikseite der Ressource im Azure-Portal.

Weitere Informationen zum Überwachen Ihrer Bereitstellungen finden Sie unter Überwachen von Azure OpenAI.

Kosten überwachen

Sie können eine Aufschlüsselung der Kosten für Prioritäts- und Standardanforderungen auf der Kostenanalyseseite des Azure-Portals anzeigen, indem Sie wie folgt nach Bereitstellungsnamen und Abrechnungstags filtern:

  1. Wechseln Sie zur Kostenanalyseseite im Azure-Portal.
  2. (Optional) Filtern nach Ressource.
  3. Um nach Bereitstellungsnamen zu filtern: Fügen Sie einen Filter für den Abrechnungs hinzu, wählen Sie Bereitstellung als Wert, und wählen Sie dann Ihren Bereitstellungsnamen.

Screenshot der Prioritätsverarbeitungsauslastung auf der Kostenanalyseseite der Ressource im Azure-Portal.

Informationen zum Preis für die Prioritätsverarbeitung finden Sie in der Azure OpenAI Service-Preisübersicht.

Aktivieren der Prioritätsverarbeitung auf Anforderungsebene

Die Aktivierung der Prioritätsverarbeitung auf Anforderungsebene ist optional. Sowohl die API für Chatabschlusse als auch die Antwort-API verfügen über ein optionales Attribut service_tier , das den Verarbeitungstyp angibt, der beim Verarbeiten einer Anforderung verwendet werden soll. Das folgende Beispiel zeigt, wie service_tier in einer Anfrage zur Antwort in priority festgelegt werden kann.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Verwenden Sie das service_tier Attribut, um die Einstellung auf Bereitstellungsebene außer Kraft zu setzen. service_tier kann die Werte auto, default und priority.

  • Wenn Sie das Attribut nicht festlegen, wird es standardmäßig auf auto.

  • service_tier = auto bedeutet, dass die Anforderung die in der Bereitstellung konfigurierte Dienstebene verwendet.

  • service_tier = default bedeutet, dass die Anforderung die Standardpreise und -leistung für das ausgewählte Modell verwendet.

  • service_tier = priority bedeutet, dass die Anforderung die Dienstebene für die Prioritätsverarbeitung verwendet.

In der folgenden Tabelle wird zusammengefasst, für welche Dienstebene Ihre Anforderungen basierend auf den Einstellungen service_tierauf Bereitstellungsebene und Anforderungsebene verarbeitet werden.

Einstellung auf Bereitstellungsebene Einstellungen auf Anfrageebene Anforderung, die von Dienstebene verarbeitet wird
Standardwert Auto, Standard Norm
Standardwert priority Vorrangverarbeitung
priority Auto, Priorität Vorrangverarbeitung
priority Standardwert Norm

Ziel-Latenz

Thema gpt-4.1, 2025-04-14
Latenz-Zielwert 99 % > 80 Token pro Sekunde*

* Berechnet als p50-Anforderungslatenz pro Grundlage von 5 Minuten.

Grenzwerte für Rampenraten

Um eine konsistente hohe Leistung für alle Kunden sicherzustellen und gleichzeitig flexible On-Demand-Preise bereitzustellen, erzwingt die Prioritätsverarbeitung Rampenratenlimits. Derzeit wird das Rampenratenlimit als Erhöhung des Datenverkehrs um mehr als 50% Token pro Minute in weniger als 15 Minuten definiert.

Downgradebedingungen

Wenn die Leistung der Prioritätsverarbeitung beeinträchtigt wird und der Datenverkehr eines Kunden zu schnell hochgefahren wird, kann der Dienst einige Prioritätsanforderungen auf die Standardverarbeitung herabstufen. Serviceanfragen, die von der Standarddienstebene verarbeitet werden, werden zu Standardtarifen abgerechnet. Diese Anforderungen sind nicht für das Ziel der Prioritätsverarbeitungslatenz berechtigt. Anfragen, die von der Standarddienststufe verarbeitet werden, enthalten service_tier = default in der Antwort.

Tipp

Wenn Sie regelmäßig auf Begrenzungen der Rampenrate stoßen, sollten Sie in Erwägung ziehen, PTU anstelle von oder zusätzlich zur bevorzugten Verarbeitung zu kaufen.

Problembehandlung

Thema Ursache Beschluss
HTTP 400-Fehler bei langen Eingabeaufforderungen gpt-4.1 unterstützt keine Anforderungen, die 128.000 Token bei der Prioritätsverarbeitung überschreiten. Halten Sie die Gesamtanforderungstoken unter 128.000. Teilen Sie lange Eingabeaufforderungen in kleinere Anforderungen auf.
Anforderungen, die auf die Standardebene herabgestuft wurden Der Datenverkehr stieg in weniger als 15 Minuten um mehr als 50 % Token pro Minute und erreichte die Obergrenze der Rampenrate. Erhöhen Sie den Verkehr schrittweise. Erwägen Sie den Erwerb von PTU für die stetige Kapazität.
PTU-Überlauf funktioniert nicht Die Prioritätsverarbeitung unterstützt noch keinen PTU-Überlauf auf eine Prioritätsverarbeitungs-fähige Bereitstellung. Implementieren Sie benutzerdefinierte Überlauflogik, z. B. mithilfe der Azure-API-Verwaltung.
service_tier gibt während des Streamings einen falschen Wert zurück. Beim Streamen über die Antwort-API kann auch dann berichtet service_tier werden, "priority" wenn die Anforderung von der Standardebene bereitgestellt wurde. Überprüfen Sie die Abrechnungseinträge, um zu bestätigen, welche Ebene die Anforderung tatsächlich verarbeitet hat.

API-Unterstützung

API-Version
Neueste unterstützte Vorschau-API-Version: 2025-10-01-preview