Kontingente und Grenzwerte für Azure OpenAI Service

Artikel
04/15/2024

Dieser Artikel enthält eine Kurzübersicht und eine ausführliche Beschreibung der Kontingente und Grenzwerte für Azure OpenAI in Azure KI Services.

Referenz zu Kontingenten und Grenzwerten

Folgende Abschnitte enthalten einen kurzen Leitfaden zu den Standard-Kontingenten und Grenzwerten, die für Azure OpenAI gelten:

Name des Grenzwerts	Wert des Grenzwerts
OpenAI-Ressourcen pro Region und Azure-Abonnement	30
Standardlimits für DALL-E 2-Kontingente	2 gleichzeitige Anforderungen
Standardlimits für DALL-E 3-Kontingente	2 Kapazitätseinheiten (6 Anforderungen pro Minute)
Maximale Anzahl von Eingabeaufforderungstoken pro Anforderung	Variiert je nach Modell. Weitere Informationen dazu finden Sie unter Azure OpenAI-Servicemodelle.
Max. optimierte Modellimplementierungen	5
Gesamtzahl der Trainingsaufträge pro Ressource	100
Maximale Anzahl gleichzeitig ausgeführter Trainingsaufträge pro Ressource	1
Maximale Anzahl von Trainingsaufträgen in der Warteschlange	20
Maximale Anzahl von Dateien pro Ressource (Feinabstimmung)	50
Gesamtgröße aller Dateien pro Ressource (Feinabstimmung)	1 GB
Maximale Dauer von Trainingsaufträgen (Auftrag schlägt bei Überschreitung fehl)	720 Stunden
Maximale Größe von Trainingsaufträgen (Token in der Trainingsdatei) × (Anzahl von Epochen)	2 Milliarden
Maximale Größe aller Dateien pro Upload (Azure OpenAI für Ihre Daten)	16 MB
Maximale Anzahl oder Eingaben in Array mit `/embeddings`	2048
Maximale Anzahl von `/chat/completions`-Nachrichten	2048
Maximale Anzahl von `/chat/completions`-Funktionen	128
Maximale Anzahl von `/chat completions`-Tools	128
Maximale Anzahl von bereitgestellten Durchsatzeinheiten pro Bereitstellung	100.000
Maximale Anzahl von Dateien pro Assistent/Thread	20
Maximale Dateigröße für Assistenten und zur Optimierung	512 MB
Tokenlimit für Assistenten	Limit von 2.000.000 Token

Regionale Kontingentgrenzen

Das Standardkontingent für Modelle variiert je nach Modell und Region. Die Standardkontingentgrenzwerte können sich ändern.

Das Kontingent für Standardbereitstellungen wird in Bezug auf Token-Per-Minute (TPM) beschrieben.

Region	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 – Optimierung	Davinci-002	Davinci-002 – Optimierung	GPT-35-Turbo – Optimierung	GPT-35-Turbo-1106 – Optimierung	GPT-35-Turbo-0125 – Optimierung
australiaeast	40 Tsd.	80.000	80.000	30.000	300 K	-	350 K	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
canadaeast	40 Tsd.	80.000	80.000	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-
eastus	-	-	80.000	-	240.000	240.000	240.000	350 K	350 K	-	-	-	-	-	-	-
eastus2	-	-	80.000	-	300 K	-	350 K	350 K	350 K	-	-	-	-	250 Tsd.	250 Tsd.	250 Tsd.
francecentral	20 Tsd.	60.000	80.000	-	240.000	-	240.000	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	30.000	300 K	-	350 K	-	-	-	-	-	-	-	-	-
northcentralus	-	-	80.000	-	300 K	-	350 K	-	-	240.000	250 Tsd.	240.000	250 Tsd.	250 Tsd.	250 Tsd.	250 Tsd.
norwayeast	-	-	150 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80.000	-	240.000	-	240.000	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-
swedencentral	40 Tsd.	80.000	150 K	30.000	300 K	240.000	350 K	-	-	240.000	250 Tsd.	240.000	250 Tsd.	250 Tsd.	250 Tsd.	250 Tsd.
switzerlandnorth	40 Tsd.	80.000	-	30.000	300 K	-	350 K	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	250 Tsd.	-	250 Tsd.	250 Tsd.	250 Tsd.	250 Tsd.
uksouth	-	-	80.000	-	240.000	-	350 K	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	240.000	-	240.000	-	-	-	-	-	-	-	-	-
westus	-	-	80.000	30.000	300 K	-	350 K	-	-	-	-	-	-	-	-	-
westus3	-	-	80.000	-	-	-	350 K	-	-	-	-	-	-	-	-	-

1 K = 1.000 Token pro Minute (TPM). Die Beziehung zwischen TPM und Anforderungen pro Minute (RPM) ist derzeit als 6 RPM pro 1.000 TPM definiert.

Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben

Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:

Implementieren Sie eine Wiederholungslogik in der Anwendung.
Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
Testen Sie verschiedene Lasterhöhungsmuster.
Erhöhen Sie das Ihrer Bereitstellung zugewiesene Kontingent. Verschieben Sie Kontingent bei Bedarf aus einer anderen Bereitstellung.

Anfordern von Erhöhungen der Standardkontingente und Grenzwerte

Anforderungen zur Erhöhung des Kontingents können über die Seite Kontingente von Azure OpenAI Studio übermittelt werden. Beachten Sie, dass aufgrund der großen Nachfrage Anforderungen zur Kontingenterhöhung akzeptiert und in der Eingangsreihenfolge bedient werden. Kund*innen, die Datenverkehr erzeugen, der das vorhandene Kontingent ausschöpft, werden vorrangig behandelt, und Ihre Anforderung kann abgelehnt werden, wenn diese Bedingung nicht erfüllt ist.

Für andere Ratenlimits senden Sie bitte eine Serviceanfrage.

Nächste Schritte

Erfahren Sie, wie Sie das Kontingent für Ihre Azure OpenAI-Bereitstellungen verwalten. Erfahren Sie mehr über die zugrunde liegenden Modelle, auf denen Azure OpenAI basiert.