Kontingente und Grenzwerte für Azure OpenAI Service

Dieser Artikel enthält eine Kurzübersicht und eine ausführliche Beschreibung der Kontingente und Grenzwerte für Azure OpenAI in Azure KI Services.

Referenz zu Kontingenten und Grenzwerten

Folgende Abschnitte enthalten einen kurzen Leitfaden zu den Standard-Kontingenten und Grenzwerten, die für Azure OpenAI gelten:

Name des Grenzwerts Wert des Grenzwerts
OpenAI-Ressourcen pro Region und Azure-Abonnement 30
Standardlimits für DALL-E 2-Kontingente 2 gleichzeitige Anforderungen
Standardlimits für DALL-E 3-Kontingente 2 Kapazitätseinheiten (6 Anforderungen pro Minute)
Maximale Anzahl von Eingabeaufforderungstoken pro Anforderung Variiert je nach Modell. Weitere Informationen dazu finden Sie unter Azure OpenAI-Servicemodelle.
Max. optimierte Modellimplementierungen 5
Gesamtzahl der Trainingsaufträge pro Ressource 100
Maximale Anzahl gleichzeitig ausgeführter Trainingsaufträge pro Ressource 1
Maximale Anzahl von Trainingsaufträgen in der Warteschlange 20
Maximale Anzahl von Dateien pro Ressource (Feinabstimmung) 50
Gesamtgröße aller Dateien pro Ressource (Feinabstimmung) 1 GB
Maximale Dauer von Trainingsaufträgen (Auftrag schlägt bei Überschreitung fehl) 720 Stunden
Maximale Größe von Trainingsaufträgen (Token in der Trainingsdatei) × (Anzahl von Epochen) 2 Milliarden
Maximale Größe aller Dateien pro Upload (Azure OpenAI für Ihre Daten) 16 MB
Maximale Anzahl oder Eingaben in Array mit /embeddings 2048
Maximale Anzahl von /chat/completions-Nachrichten 2048
Maximale Anzahl von /chat/completions-Funktionen 128
Maximale Anzahl von /chat completions-Tools 128
Maximale Anzahl von bereitgestellten Durchsatzeinheiten pro Bereitstellung 100.000
Maximale Anzahl von Dateien pro Assistent/Thread 20
Maximale Dateigröße für Assistenten und zur Optimierung 512 MB
Tokenlimit für Assistenten Limit von 2.000.000 Token

Regionale Kontingentgrenzen

Das Standardkontingent für Modelle variiert je nach Modell und Region. Die Standardkontingentgrenzwerte können sich ändern.

Das Kontingent für Standardbereitstellungen wird in Bezug auf Token-Per-Minute (TPM) beschrieben.

Region GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 – Optimierung Davinci-002 Davinci-002 – Optimierung GPT-35-Turbo – Optimierung GPT-35-Turbo-1106 – Optimierung GPT-35-Turbo-0125 – Optimierung
australiaeast 40 Tsd. 80.000 80.000 30.000 300 K - 350 K - - - - - - - - -
brazilsouth - - - - - - 350 K - - - - - - - - -
canadaeast 40 Tsd. 80.000 80.000 - 300 K - 350 K 350 K 350 K - - - - - - -
eastus - - 80.000 - 240.000 240.000 240.000 350 K 350 K - - - - - - -
eastus2 - - 80.000 - 300 K - 350 K 350 K 350 K - - - - 250 Tsd. 250 Tsd. 250 Tsd.
francecentral 20 Tsd. 60.000 80.000 - 240.000 - 240.000 - - - - - - - - -
japaneast - - - 30.000 300 K - 350 K - - - - - - - - -
northcentralus - - 80.000 - 300 K - 350 K - - 240.000 250 Tsd. 240.000 250 Tsd. 250 Tsd. 250 Tsd. 250 Tsd.
norwayeast - - 150 K - - - 350 K - - - - - - - - -
southafricanorth - - - - - - 350 K - - - - - - - - -
southcentralus - - 80.000 - 240.000 - 240.000 - - - - - - - - -
southindia - - 150 K - 300 K - 350 K - - - - - - - - -
swedencentral 40 Tsd. 80.000 150 K 30.000 300 K 240.000 350 K - - 240.000 250 Tsd. 240.000 250 Tsd. 250 Tsd. 250 Tsd. 250 Tsd.
switzerlandnorth 40 Tsd. 80.000 - 30.000 300 K - 350 K - - - - - - - - -
switzerlandwest - - - - - - - - - - 250 Tsd. - 250 Tsd. 250 Tsd. 250 Tsd. 250 Tsd.
uksouth - - 80.000 - 240.000 - 350 K - - - - - - - - -
westeurope - - - - 240.000 - 240.000 - - - - - - - - -
westus - - 80.000 30.000 300 K - 350 K - - - - - - - - -
westus3 - - 80.000 - - - 350 K - - - - - - - - -

1 K = 1.000 Token pro Minute (TPM). Die Beziehung zwischen TPM und Anforderungen pro Minute (RPM) ist derzeit als 6 RPM pro 1.000 TPM definiert.

Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben

Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:

  • Implementieren Sie eine Wiederholungslogik in der Anwendung.
  • Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
  • Testen Sie verschiedene Lasterhöhungsmuster.
  • Erhöhen Sie das Ihrer Bereitstellung zugewiesene Kontingent. Verschieben Sie Kontingent bei Bedarf aus einer anderen Bereitstellung.

Anfordern von Erhöhungen der Standardkontingente und Grenzwerte

Anforderungen zur Erhöhung des Kontingents können über die Seite Kontingente von Azure OpenAI Studio übermittelt werden. Beachten Sie, dass aufgrund der großen Nachfrage Anforderungen zur Kontingenterhöhung akzeptiert und in der Eingangsreihenfolge bedient werden. Kund*innen, die Datenverkehr erzeugen, der das vorhandene Kontingent ausschöpft, werden vorrangig behandelt, und Ihre Anforderung kann abgelehnt werden, wenn diese Bedingung nicht erfüllt ist.

Für andere Ratenlimits senden Sie bitte eine Serviceanfrage.

Nächste Schritte

Erfahren Sie, wie Sie das Kontingent für Ihre Azure OpenAI-Bereitstellungen verwalten. Erfahren Sie mehr über die zugrunde liegenden Modelle, auf denen Azure OpenAI basiert.