Kontingente und Grenzwerte für Azure OpenAI Service

Artikel
11/13/2024

Dieser Artikel enthält eine Kurzübersicht und eine ausführliche Beschreibung der Kontingente und Grenzwerte für Azure OpenAI in Azure KI Services.

Referenz zu Kontingenten und Grenzwerten

Folgende Abschnitte enthalten einen kurzen Leitfaden zu den Standard-Kontingenten und Grenzwerten, die für Azure OpenAI gelten:

Name des Grenzwerts	Wert des Grenzwerts
OpenAI-Ressourcen pro Region und Azure-Abonnement	30
Standardlimits für DALL-E 2-Kontingente	2 gleichzeitige Anforderungen
Standardlimits für DALL-E 3-Kontingente	2 Kapazitätseinheiten (6 Anforderungen pro Minute)
Standardmäßige Whisper-Kontingentgrenzwerte	3 Anforderungen pro Minute
Maximale Anzahl von Eingabeaufforderungstoken pro Anforderung	Variiert je nach Modell. Weitere Informationen dazu finden Sie unter Azure OpenAI-Servicemodelle.
Maximale Standardbereitstellungen pro Ressourcengruppe	32
Max. optimierte Modellimplementierungen	5
Gesamtzahl der Trainingsaufträge pro Ressource	100
Maximale Anzahl gleichzeitig ausgeführter Trainingsaufträge pro Ressource	1
Maximale Anzahl von Trainingsaufträgen in der Warteschlange	20
Maximale Anzahl von Dateien pro Ressource (Feinabstimmung)	50
Gesamtgröße aller Dateien pro Ressource (Feinabstimmung)	1 GB
Maximale Dauer von Trainingsaufträgen (Auftrag schlägt bei Überschreitung fehl)	720 Stunden
Maximale Größe von Trainingsaufträgen (Token in der Trainingsdatei) × (Anzahl von Epochen)	2 Milliarden
Maximale Größe aller Dateien pro Upload (Azure OpenAI für Ihre Daten)	16 MB
Maximale Anzahl oder Eingaben in Array mit `/embeddings`	2048
Maximale Anzahl von `/chat/completions`-Nachrichten	2048
Maximale Anzahl von `/chat/completions`-Funktionen	128
Maximale Anzahl von `/chat completions`-Tools	128
Maximale Anzahl von bereitgestellten Durchsatzeinheiten pro Bereitstellung	100.000
Maximale Anzahl von Dateien pro Assistent/Thread	10.000 bei Verwendung der API oder von KI Studio. 20 bei Verwendung von Azure OpenAI Studio.
Maximale Dateigröße für Assistenten und zur Optimierung	512 MB
Maximale Größe für alle hochgeladenen Dateien für Assistenten	100 GB
Tokenlimit für Assistenten	Limit von 2.000.000 Token
Maximale Anzahl GPT-4o-Bilder pro Anforderung (Anzahl von Bildern im Nachrichtenarray/in aufgezeichneten Unterhaltungen)	10
Maximale Anzahl GPT-4 `vision-preview`- & GPT-4 `turbo-2024-04-09`-Standardtoken	16 Erhöhen Sie den `max_tokens`-Parameterwert, um abgeschnittene Antworten zu vermeiden. Maximale Anzahl GPT-4o-Token ist standardmäßig 4096.
Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen¹	10
Maximale Anzahl Anforderungen pro Minute Aktuelle Ratengrenzwerte für Echtzeitaudio (`gpt-4o-realtime-preview`) werden als Anzahl neuer Websocketverbindungen pro Minute definiert. Beispielsweise bedeutet 6 Anforderung pro Minute (RPM) 6 neue Verbindungen pro Minute. Derzeit eignen sich die Verbrauchsgrenzwerte für `gpt-4o-realtime-preview` für Test und Entwicklung.	6 neue Verbindungen pro Minute

¹ Unsere aktuellen APIs ermöglichen bis zu 10 benutzerdefinierte Header, die über die Pipeline übergeben und zurückgegeben werden. Einige Kunden überschreiten diese Headeranzahl jetzt, was zu HTTP 431-Fehlern führt. Für diese Fehler gibt es keine Lösung, außer die Headeranzahl zu reduzieren. In zukünftigen API-Versionen werden keine benutzerdefinierten Header mehr übergeben. Es wird empfohlen, dass Kunden in zukünftigen Systemarchitekturen nicht von benutzerdefinierten Headern abhängen.

Regionale Kontingentgrenzen

Region	o1-mini	O1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 - GlobalStandard	gpt-4o – GlobalStandard	gpt-4o-mini – GlobalStandard	GPT-4-Turbo – GlobalStandard	GPT-4o – Global-Batch	GPT-4o-mini – Global-Batch	GPT-4 – Global-Batch	GPT-4-Turbo – Global-Batch	gpt-35-turbo – Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o – finetune	GPT-4o-mini – finetune	GPT-4 – finetune	Babbage-002	Babbage-002 – Optimierung	Davinci-002	Davinci-002 – Optimierung	GPT-35-Turbo – Optimierung	GPT-35-Turbo-1106 – Optimierung	GPT-35-Turbo-0125 – Optimierung
australiaeast	-	-	40 Tsd.	80.000	80.000	30.000	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 Tsd.	80.000	80.000	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80.000	-	1 M	2 M	240.000	240.000	50 M	30 M	30 M	50 M	2 M	5 B	15 Mrd.	150 M	300 M	10 Mrd.	240.000	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80.000	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 Tsd.	-	-	-	-	-	-	250 Tsd.	250 Tsd.	250 Tsd.
francecentral	-	-	20 Tsd.	60.000	80.000	-	-	-	240.000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240.000	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30.000	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80.000	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 Tsd.	500.000	100	240.000	250 Tsd.	240.000	250 Tsd.	250 Tsd.	250 Tsd.	250 Tsd.
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 M	600 K	-	-	80.000	-	1 M	2 M	240.000	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240.000	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 Tsd.	80.000	150 K	30.000	1 M	2 M	300 K	240.000	50 M	30 M	30 M	50 M	2 M	5 B	15 Mrd.	150 M	300 M	10 Mrd.	350 K	-	350 K	250 Tsd.	500.000	100	240.000	250 Tsd.	240.000	250 Tsd.	250 Tsd.	250 Tsd.	250 Tsd.
switzerlandnorth	-	-	40 Tsd.	80.000	-	30.000	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 Tsd.	-	250 Tsd.	250 Tsd.	250 Tsd.	250 Tsd.
uksouth	-	-	-	-	80.000	-	-	-	240.000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240.000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240.000	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80.000	30.000	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	5 B	15 Mrd.	150 M	300 M	10 Mrd.	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80.000	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Grenzwerte für einen globalen Batch

Name des Grenzwerts	Wert des Grenzwerts
Maximale Anzahl von Dateien pro Ressource	500
Maximale Größe der Eingabedatei	200 MB
Maximale Anforderungen pro Datei	100.000

Kontingent für globalen Batch

Die Tabelle zeigt den Grenzwert für ein Batchkontingent. Kontingentwerte für einen globalen Batch werden als Tokens in der Warteschlange dargestellt. Wenn Sie eine Datei zur Batchverarbeitung übermitteln, wird die Anzahl der in der Datei vorhandenen Tokens gezählt. Bis der Batchauftrag einen endgültigen Status erreicht, werden diese Tokens auf Ihren Gesamtgrenzwert der Tokens in der Warteschlange angerechnet.

Modell	Enterprise Agreement	Standard	Monatliche Abonnements mit Kreditkarte	MSDN-Abonnements	Microsoft Azure for Students, Free Testversionen
`gpt-4o`	5 B	200 Mio.	50 M	90 K	N/V
`gpt-4o-mini`	15 B	1 Mrd.	50 M	90 K	N/V
`gpt-4-turbo`	300 M	80 Mio.	40 M	90 K	N/V
`gpt-4`	150 M	30 M	5 M	100	N/V
`gpt-35-turbo`	10 Mrd.	1 Mrd.	100 M	2 M	50

Mrd. = Milliarde | M = Million | K = Tausend

o1-Vorschau- & o1-Mini-Grenzwerte

Wichtig

Das Verhältnis von RPM/TPM für Kontingente mit Modellen der o1-Serie funktioniert anders als ältere Chatvervollständigungsmodelle:

Ältere Chatmodelle: 1 Kapazitätseinheit = 6 RPM und 1.000 TPM.
o1-preview: 1 Kapazitätseinheit = 1 RPM und 6.000 TPM.
o1-mini: 1 Kapazitätseinheit = 1 RPM pro 10.000 TPM.

Dies ist besonders wichtig für die programmgesteuerte Modellbereitstellung, da diese Änderung des Verhältnisses zwischen RPM und TPM zu einer versehentlichen Unterzuteilung des Kontingents führen kann, wenn weiterhin von einem Verhältnis von 1:1000 ausgegangen wird, wie es bei älteren Chatvervollständigungsmodellen üblich ist.

Es gibt ein bekanntes Problem mit der Kontingent-/Verbrauchs-API, bei dem davon ausgegangen wird, dass das alte Verhältnis für die neuen Modelle der o1-Serie gilt. Die API gibt die richtige Grundkapazitätszahl zurück, wendet jedoch nicht das richtige Verhältnis für die genaue Berechnung von TPM an.

o1-Vorschau & o1-Mini globaler Standard

Modell	Tarif	Kontingentbeschränkung in Token pro Minute (TPM)	Anforderungen pro Minute
`o1-preview`	Enterprise Agreement	30 M	5.000
`o1-mini`	Enterprise Agreement	50 M	5.000
`o1-preview`	Standard	3 Mio.	500
`o1-mini`	Standard	5 M	500

o1-Vorschau- & o1-Mini-Standard

Modell	Tarif	Kontingentbeschränkung in Token pro Minute (TPM)	Anforderungen pro Minute
`o1-preview`	Enterprise Agreement	600 K	100
`o1-mini`	Enterprise Agreement	1 M	100
`o1-preview`	Standard	300 K	50
`o1-mini`	Standard	500.000	50

Ratengrenzwerte für gpt-4o und GPT-4 Turbo

gpt-4o und gpt-4o-mini sowie gpt-4 (turbo-2024-04-09) verfügen über Ratengrenzwertebenen mit höheren Grenzwerten für bestimmte Kundentypen.

Globaler Standard für gpt-4o und GPT-4 Turbo

Modell	Tarif	Kontingentbeschränkung in Token pro Minute (TPM)	Anforderungen pro Minute
`gpt-4o`	Enterprise Agreement	30 M	180 Tsd.
`gpt-4o-mini`	Enterprise Agreement	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Enterprise Agreement	2 M	12 K
`gpt-4o`	Standard	450 K	2,7 K
`gpt-4o-mini`	Standard	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Standard	450 K	2,7 K

M = Million | K = Tausend

gpt-4o-Datenzonenstandard

Modell	Tarif	Kontingentbeschränkung in Token pro Minute (TPM)	Anforderungen pro Minute
`gpt-4o`	Enterprise Agreement	10 M	60.000
`gpt-4o-mini`	Enterprise Agreement	20 Millionen	120.000
`gpt-4o`	Standard	300 K	1,8 K
`gpt-4o-mini`	Standard	1 M	6 Tsd.

M = Million | K = Tausend

gpt-4o Standard

Modell	Tarif	Kontingentbeschränkung in Token pro Minute (TPM)	Anforderungen pro Minute
`gpt-4o`	Enterprise Agreement	1 M	6 Tsd.
`gpt-4o-mini`	Enterprise Agreement	2 M	12 K
`gpt-4o`	Standard	150 K	900
`gpt-4o-mini`	Standard	450 K	2,7 K

M = Million | K = Tausend

Verwendungsebenen

Globale Standardbereitstellungen verwenden die globale Azure-Infrastruktur und leiten den Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Globale Bereitstellungen ermöglichen Ihnen ebenso, die globale Infrastruktur von Azure zu nutzen, um den Datenverkehr dynamisch an das Rechenzentrum mit der besten Verfügbarkeit für jede Anforderung weiterzuleiten. Das ermöglicht eine konsistentere Wartezeit für Kunden mit geringem bis mittlerem Datenverkehr. Bei Kunden mit einer dauerhaft hohen Nutzung tritt möglicherweise eine höhere Variabilität der Antwortwartezeit auf.

Der Nutzungsgrenzwert bestimmt den Nutzungsgrad, über dem für Kunden möglicherweise eine höhere Variabilität der Antwortwartezeit auftritt. Die Nutzung eines Kunden ist pro Modell definiert und setzt sich aus der Gesamtanzahl der Token zusammen, die von einem bestimmten Mandanten durch alle Bereitstellungen in allen Abonnements und Regionen verbraucht werden.

Hinweis

Verwendungsebenen gelten nur für Standard-, Datenzonenstandard- und globale Standardbereitstellungstypen. Verbrauchsebenen gelten nicht für globale Batch- und bereitgestellte Durchsatzbereitstellungen.

GPT-4o – globaler Standard, Datenzonenstandard und Standard

Modell	Nutzungstarife pro Monat
`gpt-4o`	12 Milliarden Token
`gpt-4o-mini`	85 Milliarden Token

GPT-4 Standard

Modell	Nutzungstarife pro Monat
`gpt-4` + `gpt-4-32k` (alle Versionen)	6 Milliarden

Andere Angebotstypen

Wenn Ihr Azure-Abonnement mit bestimmten Angebotstypen verknüpft ist, sind Ihre maximalen Kontingentwerte niedriger als die in den obigen Tabellen angegebenen Werte.

Tarif	Kontingentbeschränkung in Token pro Minute (TPM)
Microsoft Azure for Students, Free Testversionen	1000 (alle Modelle)
MSDN-Abonnements	GPT 3.5 Turbo-Serie: 30 000 GPT-4-Serie: 8000
Monatliche Kreditkartenabonnements ¹	GPT 3.5 Turbo-Serie: 30 000 GPT-4-Serie: 8000

¹ Dies gilt derzeit für den Angebotstyp 0003P

Im Azure-Portal können Sie anzeigen, welcher Angebotstyp Ihrem Abonnement zugeordnet ist, indem Sie zu Ihrem Abonnement navigieren und den Übersichtsbereich der Abonnements überprüfen. Der Angebotstyp entspricht dem Feld „Plan“ in der Abonnementübersicht.

Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben

Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:

Implementieren Sie eine Wiederholungslogik in der Anwendung.
Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
Testen Sie verschiedene Lasterhöhungsmuster.
Erhöhen Sie das Ihrer Bereitstellung zugewiesene Kontingent. Verschieben Sie Kontingent bei Bedarf aus einer anderen Bereitstellung.

Anfordern von Erhöhungen der Standardkontingente und Grenzwerte

Anforderungen zur Erhöhung des Kontingents können über die Seite Kontingente in Azure AI Studio gesendet werden. Aufgrund der hohen Nachfrage werden Anfragen zur Kontingenterhöhung akzeptiert und in der Reihenfolge bearbeitet, in der sie eingehen. Kunden, die Datenverkehr generieren, der das vorhandene Kontingent ausschöpft, werden vorrangig behandelt, und Ihre Anforderung kann abgelehnt werden, wenn diese Bedingung nicht erfüllt ist.

Für andere Ratenlimits senden Sie eine Serviceanfrage.

Nächste Schritte

Erfahren Sie, wie Sie das Kontingent für Ihre Azure OpenAI-Bereitstellungen verwalten. Erfahren Sie mehr über die zugrunde liegenden Modelle, auf denen Azure OpenAI basiert.

Freigeben über

Kontingente und Grenzwerte für Azure OpenAI Service

Referenz zu Kontingenten und Grenzwerten

Regionale Kontingentgrenzen

Grenzwerte für einen globalen Batch

Kontingent für globalen Batch

o1-Vorschau- & o1-Mini-Grenzwerte

o1-Vorschau & o1-Mini globaler Standard

o1-Vorschau- & o1-Mini-Standard

Ratengrenzwerte für gpt-4o und GPT-4 Turbo

Globaler Standard für gpt-4o und GPT-4 Turbo

gpt-4o-Datenzonenstandard

gpt-4o Standard

Verwendungsebenen

GPT-4o – globaler Standard, Datenzonenstandard und Standard

GPT-4 Standard

Andere Angebotstypen

Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben

Anfordern von Erhöhungen der Standardkontingente und Grenzwerte

Nächste Schritte

Feedback

Zusätzliche Ressourcen