Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Hinweis
Dieses Dokument bezieht sich auf das Microsoft Foundry(klassische) Portal.
🔍 Zeigen Sie die Microsoft Foundry-Dokumentation (neu) an, um mehr über das neue Portal zu erfahren.
Das Kontingent bietet die Flexibilität, die Zuordnung von Ratenbegrenzungen für die Bereitstellungen in Ihrem Abonnement aktiv zu verwalten. In diesem Artikel erfahren Sie, wie Sie Ihr Azure OpenAI-Kontingent verwalten.
Voraussetzungen
Von Bedeutung
Für alle Aufgaben, die die Anzeige des verfügbaren Kontingents erfordern, empfehlen wir die Verwendung der Rolle Cognitive Services Usages Reader. Diese Rolle bietet den minimal erforderlichen Zugriff, um die Kontingentnutzung für ein Azure-Abonnement anzuzeigen. Weitere Informationen zu dieser Rolle und den anderen Rollen, die Sie für den Zugriff auf Azure OpenAI benötigen, finden Sie in unserem Azure-Leitfaden zur rollenbasierten Zugriffssteuerung.
Diese Rolle finden Sie im Azure-Portal unter Abonnements>Zugriffssteuerung (Identity & Access Management, IAM)>Rollenzuweisung hinzufügen> nach Cognitive Services-Nutzungsleser suchen. Diese Rolle muss auf Abonnementebene angewendet werden, sie ist nicht auf Ressourcenebene vorhanden.
Wenn Sie diese Rolle nicht verwenden möchten, bietet die Abonnementleserolle einen gleichwertigen Zugriff, gewährt aber auch Lesezugriff über den Umfang hinaus, der für die Anzeigekontingent- und Modellbereitstellung erforderlich ist.
Einführung in die Kontingente
Das Kontingent-Feature von Azure OpenAI ermöglicht die Zuweisung von Ratenlimits für Ihre Bereitstellungen bis zu einem globalen Grenzwert, der als Kontingent bezeichnet wird. Das Kontingent wird Ihrem Abonnement pro Region, pro Modell und pro Bereitstellungstyp in Einheiten von Token pro Minute (TPM) zugewiesen. Wenn Sie ein Abonnement in Azure OpenAI integrieren, erhalten Sie ein Standardkontingent für die meisten verfügbaren Modelle. Anschließend weisen Sie jeder Bereitstellung während der Erstellung bestimmte TPM zu. Dann wird das verfügbare Kontingent für dieses Modell um diesen Betrag reduziert. Sie können weiterhin Bereitstellungen erstellen und ihnen TPM zuweisen, bis Sie Ihr Kontingentlimit erreicht haben. Sobald dies geschehen ist, können Sie neue Bereitstellungen dieses Modells nur erstellen, indem Sie das anderen Bereitstellungen desselben Modells zugewiesene TPM reduzieren (wodurch TPM zur Verwendung freigegeben wird), oder indem Sie eine Modellkontingenterhöhung in der gewünschten Region anfordern und genehmigt bekommen.
Hinweis
Mit einem Kontingent von 240.000 TPM für GPT-4o im Osten der USA kann ein Kunde entweder eine einzelne Bereitstellung von 240 K TPM, zwei Bereitstellungen von jeweils 120 K TPM oder eine beliebige Anzahl an Bereitstellungen in einer oder mehreren Azure OpenAI-Ressourcen erstellen, solange ihre TPM in dieser Region insgesamt unter 240 K liegt.
Wenn eine Bereitstellung erstellt wird, werden die zugewiesenen TPM direkt der für seine Rückschlussanforderungen erzwungenen Token-pro-Minute-Ratenbegrenzung zugeordnet. Außerdem wird ein RPM-Ratenlimit (Requests-Per-Minute) erzwungen, dessen Wert proportional zur TPM-Zuweisung mit dem folgenden Verhältnis ist:
Von Bedeutung
Das Verhältnis von Anforderungen pro Minute (RPM) zu Token pro Minute (TPM) für das Kontingent kann je nach Modell variieren. Wenn Sie ein Modell programmgesteuert bereitstellen oder eine Kontingenterhöhung anfordern , haben Sie keine präzise Kontrolle über TPM und RPM als unabhängige Werte. Das Kontingent wird in Bezug auf Kapazitätseinheiten zugewiesen, die entsprechende Mengen von RPM & TPM aufweisen:
| Modell | Kapazität | Anforderungen pro Minute (RPM) | Token pro Minute (TPM) |
|---|---|---|---|
| Ältere Chatmodelle: | 1 Einheit | 6 U/MIN | 1.000 TPM |
| o1 & o1-Vorschau: | 1 Einheit | 1 U/MIN | 6.000 TPM |
| o3 | 1 Einheit | 1 U/MIN | 1.000 TPM |
| o4-mini | 1 Einheit | 1 U/MIN | 1.000 TPM |
| o3-mini: | 1 Einheit | 1 U/MIN | 10.000 TPM |
| o1-mini: | 1 Einheit | 1 U/MIN | 10.000 TPM |
| o3-pro: | 1 Einheit | 1 U/MIN | 10.000 TPM |
Dies ist besonders wichtig für die programmgesteuerte Modellbereitstellung, da Änderungen im RPM-/TPM-Verhältnis zu versehentlichen Fehlzuweisungen des Kontingents führen können. Weitere Informationen finden Sie unter "Kontingent" und "Grenzwerte".
Die Flexibilität, TPM global innerhalb eines Abonnements und einer Region zu verteilen, hat Azure OpenAI erlaubt, andere Einschränkungen zu lockern:
- Die maximalen Ressourcen pro Region werden auf 30 erhöht.
- Das Limit für die Erstellung von maximal einer Bereitstellung desselben Modells in einer Ressource wurde entfernt.
Kontingent zuweisen
Wenn Sie eine Modellbereitstellung erstellen, können Sie dieser Token pro Minute (TPM) zuzuweisen. Die TPM können in Schritten von 1.000 geändert werden und entsprechen den für Ihre Bereitstellung erzwungenen TPM- und RPM-Ratenlimits, wie oben erläutert.
Um eine neue Bereitstellung im Microsoft Foundry-Portal zu erstellen, wählen Sie Bereitstellungen>Modell bereitstellen>Basismodell bereitstellen>Modell auswählen>Bestätigen.
Nach der Bereitstellung können Sie Ihre TPM-Zuordnung anpassen, indem Sie Ihr Modell auf der Seite "Bereitstellungen " im Foundry-Portal auswählen und bearbeiten. Sie können diese Einstellung auch über die Seite Verwaltung>Modellkontingentseite ändern.
Von Bedeutung
Kontingente und Grenzwerte können sich ändern. Die aktuellsten Informationen finden Sie in unserem Artikel zu den Kontingenten und Grenzwerten.
Anfordern eines weiteren Kontingents
Sie können Kontingenterhöhungen für Foundry-Modelle beantragen, die direkt von Azure angeboten werden, einschließlich der Azure-OpenAI-Modelle. Quotenerhöhungen sind für Modelle von Partnern und Gemeinschaft in der Regel nicht verfügbar. Anthropische Modelle sind eine Ausnahme.
Senden Sie das Anforderungsformular zur Erhöhung des Kontingents , um eine Kontingenterhöhung anzufordern. Anforderungen werden in der empfangenen Reihenfolge verarbeitet. Priorität geht an Kunden, die ihre vorhandene Kontingentzuweisung aktiv nutzen. Anforderungen, die diese Bedingung nicht erfüllen, werden möglicherweise verweigert.
Übermitteln Sie für weitere Erhöhungen der Ratengrenze eine Serviceanfrage.
Modellspezifische Einstellungen
Verschiedene Modellbereitstellungen, die auch als Modellklassen bezeichnet werden, verfügen über eindeutige maximale TPM-Werte, die Sie jetzt anpassen können. Dabei geht es um die maximale TPM-Menge, die diesem Typ der Modellimplementierung in einer bestimmten Region zugeordnet werden kann.
Alle anderen Modellklassen verfügen über einen gemeinsamen maximalen TPM-Wert.
Hinweis
Kontingenttoken–Per-Minute (TPM)-Zuordnung ist nicht mit dem maximalen Eingabetokengrenzwert eines Modells verknüpft. Die Grenzwerte für Modelleingabetoken werden in der Modelltabelle definiert und sind von TPM-Änderungen nicht betroffen.
Anzeigen und Anfordern eines Kontingents
Wählen Sie Verwaltung>Kontingentin Foundry Portal aus, um eine Übersicht über Ihre Kontingentzuordnungen für Bereitstellungen in einer bestimmten Region zu erhalten:
- Bereitstellung: Modellbereitstellungen dividiert nach Modellklasse.
- Kontingenttyp: Für jeden Modelltyp gibt es einen Kontingentwert pro Region. Das Kontingent deckt alle Versionen dieses Modells ab.
- Kontingentzuordnung: Für den Kontingentnamen wird angegeben, wie viel Kontingent von Bereitstellungen verwendet wird und wie viel Kontingent für dieses Abonnement und die Region insgesamt genehmigt wurde. Diese Menge des verwendeten Kontingents wird auch im Balkendiagramm dargestellt.
- Kontingent anfordern: Das Symbol führt Sie zum Formular zur Anforderungen der Erhöhung des Kontingents.
Migrieren vorhandener Bereitstellungen
Im Rahmen der Umstellung auf das neue Kontingentsystem und die TPM-basierte Zuweisung wurden alle vorhandenen Azure OpenAI-Modellbereitstellungen automatisch migriert, um Kontingente zu verwenden. In Fällen, in denen die vorhandene TPM/RPM-Zuordnung aufgrund vorheriger benutzerdefinierter Ratenbegrenzungserhöhungen die Standardwerte überschritt, wurde den betroffenen Bereitstellungen entsprechende TPM zugewiesen.
Grundlegendes zu den Ratenlimits
Durch das Zuweisen von TPM zu einer Bereitstellung werden die Ratenlimits TPM (Token-per-minute) und RPM (Requests-per-minute) für die Bereitstellung wie oben beschrieben festgelegt. Die TPM-Ratenlimits basieren auf der maximalen Anzahl von Token, die zum Zeitpunkt des Empfangens der Anforderung von einer Anforderung verarbeitet werden sollen. Sie entspricht nicht der Tokenanzahl, die bei der Abrechnung nach Abschluss der Verarbeitung veranschlagt wird.
Beim Empfang einer Anforderung berechnet Azure OpenAI eine geschätzte maximale Anzahl verarbeiteter Token, die Folgendes umfasst:
- Eingabeaufforderungstext und Anzahl
- Einstellung des Parameters max_tokens
- Einstellung des Parameters best_of
Wenn Anforderungen an den Bereitstellungsendpunkt eingehen, wird die geschätzte Anzahl von max-processed-token zu einer ausgeführten Tokenanzahl aller Anforderungen hinzugefügt, die jede Minute zurückgesetzt wird. Wenn zu irgendeinem Zeitpunkt während dieser Minute der TPM-Ratengrenzwert erreicht wird, erhalten weitere Anforderungen den Antwortcode 429, bis der Zähler wieder zurückgesetzt wird.
Von Bedeutung
Die in der Berechnung des Ratenlimits verwendete Tokenanzahl ist eine Schätzung, die teilweise auf der Zeichenanzahl der API-Anforderung basiert. Die Schätzung des Ratenlimittokens entspricht nicht der Tokenberechnung, die für die Abrechnung/Bestimmung verwendet wird, dass eine Anforderung unter dem Eingabetokenlimit eines Modells liegt. Aufgrund der Tokenberechnung des Ratenlimits als Schätzung ist zu erwarten, dass ein Ratenlimit vor dem im Vergleich zu einer genauen Tokenanzahlmessung für jede Anforderung erwarteten Wert ausgelöst werden kann.
Die Grenzwerte für die RPM-Rate basieren auf der Anzahl der im Laufe der Zeit empfangenen Anforderungen. Das Ratenlimit geht davon aus, dass die Anforderungen gleichmäßig über die Minute verteilt werden. Wenn dieser durchschnittliche Fluss nicht beibehalten wird, erhalten Anforderungen möglicherweise die Antwort 429, obwohl der Grenzwert noch nicht erreicht war, wenn er innerhalb einer Minute gemessen wird. Um dieses Verhalten zu implementieren, wertet Azure OpenAI die Rate eingehender Anforderungen über einen kleinen Zeitraum aus, in der Regel 1 oder 10 Sekunden. Wenn die Anzahl der während dieser Zeit empfangenen Anforderungen die beim festgelegten RPM-Grenzwert erwartete Anzahl überschreitet, erhalten neue Anforderungen bis zum nächsten Auswertungszeitraum den Antwortcode 429. Wenn Azure OpenAI beispielsweise die Anforderungsrate in Intervallen von 1 Sekunde überwacht, erfolgt eine Ratenbegrenzung für eine Bereitstellung mit 600 RPM, wenn innerhalb von 1 Sekunde mehr als 10 Anforderungen eingehen (600 Anforderungen pro Minute = 10 Anforderungen pro Sekunde).
Empfohlene Vorgehensweise zur Ratenbegrenzung
Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:
- Legen Sie max_tokens und best_of auf die Mindestwerte fest, die den Anforderungen Ihres Szenarios entsprechen. Legen Sie beispielsweise keinen großen Max-Token-Wert fest, wenn Sie eine niedrige Antwortrate erwarten.
- Verwenden Sie die Kontingentverwaltung, um TPM bei Bereitstellungen mit hohem Datenverkehr zu erhöhen bzw. bei Bereitstellungen mit eingeschränkten Anforderungen zu reduzieren.
- Implementieren Sie eine Wiederholungslogik in der Anwendung.
- Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
- Testen Sie verschiedene Lasterhöhungsmuster.
Verständnis von 429-Throttling-Fehlern und was zu tun ist
Warum möglicherweise ein 429-Fehler angezeigt wird
Möglicherweise tritt ein 429-Fehler ("Zu viele Anforderungen") auf, wenn Ihre Nutzung die zulässigen Grenzwerte überschreitet oder wenn das System hohe Anforderungen aufweist. Wir haben kürzlich unsere Fehlermeldung verbessert, um diese Situationen transparenter und umsetzbarer zu machen.
Allgemeine 429 Szenarien und was zu tun ist
- Der Höchstwert wurde überschritten. Dies ist die häufigste Situation, wenn Sie 429 Antworten erhalten haben. Dies bedeutet, dass Ihre Anforderungen das Zinslimit für Ihr aktuelles Kontingent überschritten haben. In diesem Fall können Sie mithilfe des bereitgestellten Links in der Fehlermeldung eine Kontingenterhöhung anfordern.
- Das System hat hohe Anforderungen und kann Ihre Anforderung nicht verarbeiten. Das System liegt unter hoher Nachfrage und kann Ihre Anforderung aufgrund von Kapazitäts- oder Latenzgrenzwerten nicht verarbeiten. In diesem Fall können Sie den Vorgang nach der vorgeschlagenen Zeit wiederholen. Bitte beachten Sie, dass das Standardangebot keine SLA für Latenz aufweist und bei Überschreitung der Nutzungsebene eine variable Latenz auftreten kann. Wenn Sie nach verbesserter Zuverlässigkeit oder geringerer Latenz suchen, sollten Sie ein Upgrade auf das Premium-Angebot (bereitgestellter Durchsatz) durchführen, um eine bessere Vorhersagbarkeit zu erzielen.
Automatisieren der Bereitstellung
Dieser Abschnitt enthält kurze Beispielvorlagen, die Ihnen den Einstieg in das programmgesteuerte Erstellen von Bereitstellungen erleichtern, die ein Kontingent zum Festlegen von TPM-Ratenbegrenzungen verwenden. Mit der Einführung von Kontingenten müssen Sie die API-Version 2023-05-01 für Aktivitäten im Zusammenhang mit der Ressourcenverwaltung verwenden. Diese API-Version dient nur zum Verwalten Ihrer Ressourcen und wirkt sich nicht auf die API-Version aus, die zum Ableiten von Aufrufen wie Abschluss, Chatabschluss, Einbettung, Bildgenerierung usw. verwendet wird.
Einsatz
PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01
Pfadparameter
| Parameter | Typ | Erforderlich? | BESCHREIBUNG |
|---|---|---|---|
accountName |
Schnur | Erforderlich | Der Name Ihrer Azure OpenAI-Ressource. |
deploymentName |
Schnur | Erforderlich | Der Bereitstellungsname, den Sie bei der Bereitstellung eines vorhandenen Modells ausgewählt haben, oder der Name, den Sie für eine neue Modellimplementierung verwenden möchten. |
resourceGroupName |
Schnur | Erforderlich | Der Name der zugeordneten Ressourcengruppe für diese Modellimplementierung. |
subscriptionId |
Schnur | Erforderlich | Abonnement-ID für das zugehörige Abonnement. |
api-version |
Schnur | Erforderlich | Hierbei handelt es sich um die für diesen Vorgang zu verwendende API-Version. Sie hat das Format „JJJJ-MM-TT“. |
Unterstützte Versionen
-
2023-05-01Swagger-Spezifikation
Anforderungstext
Dies ist nur eine Teilmenge der verfügbaren Anforderungstextparameter. Eine vollständige Liste der Parameter finden Sie in der REST-API-Referenzdokumentation.
| Parameter | Typ | BESCHREIBUNG |
|---|---|---|
| sku | Sku | Die Ressourcenmodelldefinition, die die SKU repräsentiert. |
| Kapazität | integer | Dies stellt die Menge des Kontingents dar, das Sie dieser Bereitstellung zuweisen. Ein Wert 1 entspricht 1.000 Token pro Minute (TPM) Ein Wert 10 entspricht 10.000 Token pro Minute (TPM). |
Beispielanforderung
curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-4o-test-deployment?api-version=2023-05-01 \
-H "Content-Type: application/json" \
-H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
-d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-4o","version": "2024-11-20"}}}'
Hinweis
Es gibt mehrere Möglichkeiten, ein Autorisierungstoken zu generieren. Die einfachste Methode für anfängliche Tests besteht darin, Cloud Shell über das Azure-Portal zu starten. Führen Sie dann az account get-access-token aus. Sie können dieses Token als temporäres Autorisierungstoken für API-Tests verwenden.
Weitere Informationen finden Sie in der REST-API-Referenzdokumentation zu Nutzung und Bereitstellungen.
Verwendung
So fragen Sie die Nutzung Ihres Kontingents in einer bestimmten Region für ein bestimmtes Abonnement ab:
GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01
Pfadparameter
| Parameter | Typ | Erforderlich? | BESCHREIBUNG |
|---|---|---|---|
subscriptionId |
Schnur | Erforderlich | Abonnement-ID für das zugehörige Abonnement. |
location |
Schnur | Erforderlich | Standort, für den die Nutzung angezeigt wird, z. B.: eastus |
api-version |
Schnur | Erforderlich | Hierbei handelt es sich um die für diesen Vorgang zu verwendende API-Version. Sie hat das Format „JJJJ-MM-TT“. |
Unterstützte Versionen
-
2023-05-01Swagger-Spezifikation
Beispielanforderung
curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
-H "Content-Type: application/json" \
-H 'Authorization: Bearer YOUR_AUTH_TOKEN'
Ressourcenlöschung
Wenn Sie versuchen, eine Azure OpenAI-Ressource aus dem Azure-Portal zu löschen, während noch Bereitstellungen vorhanden sind, wird der Löschvorgang blockiert, bis die zugehörigen Bereitstellungen gelöscht wurden. Wenn Sie zunächst die Bereitstellungen löschen, können Kontingentzuordnungen ordnungsgemäß freigegeben werden, damit sie für neue Bereitstellungen verwendet werden können.
Wenn Sie eine Ressource jedoch über die REST-API oder eine andere programmgesteuerte Methode löschen, ist ein vorheriges Löschen der Bereitstellungen nicht erforderlich. In diesem Fall steht das zugehörige Kontingent 48 Stunden lang nicht für die Zuweisung zu einer neuen Bereitstellung zur Verfügung, bis die Ressource endgültig gelöscht wird. Wenn Sie eine sofortige endgültige Löschung einer gelöschten Ressource auslösen möchten, um Kontingente freizugeben, befolgen Sie die Anweisungen unter Endgültiges Löschen einer gelöschten Ressource.
Nächste Schritte
- Informationen zum Überprüfen der Kontingentstandardwerte für Azure OpenAI finden Sie im Artikel zur Kontingenten und Grenzwerten.