Freigeben über


Kontingente und Grenzwerte für Azure OpenAI Service

Dieser Artikel enthält eine Kurzübersicht und eine ausführliche Beschreibung der Kontingente und Grenzwerte für Azure OpenAI in Azure KI Services.

Referenz zu Kontingenten und Grenzwerten

Folgende Abschnitte enthalten einen kurzen Leitfaden zu den Standard-Kontingenten und Grenzwerten, die für Azure OpenAI gelten:

Name des Grenzwerts Wert des Grenzwerts
OpenAI-Ressourcen pro Region und Azure-Abonnement 30
Standardlimits für DALL-E 2-Kontingente 2 gleichzeitige Anforderungen
Standardlimits für DALL-E 3-Kontingente 2 Kapazitätseinheiten (6 Anforderungen pro Minute)
Standardmäßige Whisper-Kontingentgrenzwerte 3 Anforderungen pro Minute
Maximale Anzahl von Eingabeaufforderungstoken pro Anforderung Variiert je nach Modell. Weitere Informationen dazu finden Sie unter Azure OpenAI-Servicemodelle.
Maximale Standardbereitstellungen pro Ressourcengruppe 32
Max. optimierte Modellimplementierungen 5
Gesamtzahl der Trainingsaufträge pro Ressource 100
Maximale Anzahl gleichzeitig ausgeführter Trainingsaufträge pro Ressource 1
Maximale Anzahl von Trainingsaufträgen in der Warteschlange 20
Maximale Anzahl von Dateien pro Ressource (Feinabstimmung) 50
Gesamtgröße aller Dateien pro Ressource (Feinabstimmung) 1 GB
Maximale Dauer von Trainingsaufträgen (Auftrag schlägt bei Überschreitung fehl) 720 Stunden
Maximale Größe von Trainingsaufträgen (Token in der Trainingsdatei) × (Anzahl von Epochen) 2 Milliarden
Maximale Größe aller Dateien pro Upload (Azure OpenAI für Ihre Daten) 16 MB
Maximale Anzahl oder Eingaben in Array mit /embeddings 2048
Maximale Anzahl von /chat/completions-Nachrichten 2048
Maximale Anzahl von /chat/completions-Funktionen 128
Maximale Anzahl von /chat completions-Tools 128
Maximale Anzahl von bereitgestellten Durchsatzeinheiten pro Bereitstellung 100.000
Maximale Anzahl von Dateien pro Assistent/Thread 10.000 bei Verwendung der API oder von KI Studio. 20 bei Verwendung von Azure OpenAI Studio.
Maximale Dateigröße für Assistenten und zur Optimierung 512 MB
Maximale Größe für alle hochgeladenen Dateien für Assistenten 100 GB
Tokenlimit für Assistenten Limit von 2.000.000 Token
Maximale Anzahl GPT-4o-Bilder pro Anforderung (Anzahl von Bildern im Nachrichtenarray/in aufgezeichneten Unterhaltungen) 10
Maximale Anzahl GPT-4 vision-preview- & GPT-4 turbo-2024-04-09-Standardtoken 16

Erhöhen Sie den max_tokens-Parameterwert, um abgeschnittene Antworten zu vermeiden. Maximale Anzahl GPT-4o-Token ist standardmäßig 4096.
Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen1 10
Maximale Anzahl Anforderungen pro Minute

Aktuelle Ratengrenzwerte für Echtzeitaudio (gpt-4o-realtime-preview) werden als Anzahl neuer Websocketverbindungen pro Minute definiert. Beispielsweise bedeutet 6 Anforderung pro Minute (RPM) 6 neue Verbindungen pro Minute. Derzeit eignen sich die Verbrauchsgrenzwerte für gpt-4o-realtime-preview für Test und Entwicklung.
6 neue Verbindungen pro Minute

1 Unsere aktuellen APIs ermöglichen bis zu 10 benutzerdefinierte Header, die über die Pipeline übergeben und zurückgegeben werden. Einige Kunden überschreiten diese Headeranzahl jetzt, was zu HTTP 431-Fehlern führt. Für diese Fehler gibt es keine Lösung, außer die Headeranzahl zu reduzieren. In zukünftigen API-Versionen werden keine benutzerdefinierten Header mehr übergeben. Es wird empfohlen, dass Kunden in zukünftigen Systemarchitekturen nicht von benutzerdefinierten Headern abhängen.

Regionale Kontingentgrenzen

Region o1-mini O1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini - GlobalStandard o1 - GlobalStandard gpt-4o – GlobalStandard gpt-4o-mini – GlobalStandard GPT-4-Turbo – GlobalStandard GPT-4o – Global-Batch GPT-4o-mini – Global-Batch GPT-4 – Global-Batch GPT-4-Turbo – Global-Batch gpt-35-turbo – Global-Batch Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o – finetune GPT-4o-mini – finetune GPT-4 – finetune Babbage-002 Babbage-002 – Optimierung Davinci-002 Davinci-002 – Optimierung GPT-35-Turbo – Optimierung GPT-35-Turbo-1106 – Optimierung GPT-35-Turbo-0125 – Optimierung
australiaeast - - 40 Tsd. 80.000 80.000 30.000 - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
canadaeast - - 40 Tsd. 80.000 80.000 - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus 1 M 600 K - - 80.000 - 1 M 2 M 240.000 240.000 50 M 30 M 30 M 50 M 2 M 5 B 15 Mrd. 150 M 300 M 10 Mrd. 240.000 350 K 350 K - - - - - - - - - -
eastus2 1 M 600 K - - 80.000 - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K 350 K 350 K 250 Tsd. - - - - - - 250 Tsd. 250 Tsd. 250 Tsd.
francecentral - - 20 Tsd. 60.000 80.000 - - - 240.000 - - - 30 M 50 M 2 M - - - - - 240.000 - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30.000 - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80.000 - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - - 250 Tsd. 500.000 100 240.000 250 Tsd. 240.000 250 Tsd. 250 Tsd. 250 Tsd. 250 Tsd.
norwayeast - - - - 150 K - - - - - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
polandcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
southcentralus 1 M 600 K - - 80.000 - 1 M 2 M 240.000 - 50 M 30 M 30 M 50 M 2 M - - - - - 240.000 - - - - - - - - - - - -
southindia - - - - 150 K - - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
spaincentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
swedencentral 1 M 600 K 40 Tsd. 80.000 150 K 30.000 1 M 2 M 300 K 240.000 50 M 30 M 30 M 50 M 2 M 5 B 15 Mrd. 150 M 300 M 10 Mrd. 350 K - 350 K 250 Tsd. 500.000 100 240.000 250 Tsd. 240.000 250 Tsd. 250 Tsd. 250 Tsd. 250 Tsd.
switzerlandnorth - - 40 Tsd. 80.000 - 30.000 - - 300 K - - - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 Tsd. - 250 Tsd. 250 Tsd. 250 Tsd. 250 Tsd.
uksouth - - - - 80.000 - - - 240.000 - - - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - - - 240.000 - - - 30 M 50 M 2 M - - - - - 240.000 - - - - - - - - - - - -
westus 1 M 600 K - - 80.000 30.000 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M 5 B 15 Mrd. 150 M 300 M 10 Mrd. 350 K - - - - - - - - - - - -
westus3 1 M 600 K - - 80.000 - 1 M 2 M 300 K - 50 M 30 M 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -

Grenzwerte für einen globalen Batch

Name des Grenzwerts Wert des Grenzwerts
Maximale Anzahl von Dateien pro Ressource 500
Maximale Größe der Eingabedatei 200 MB
Maximale Anforderungen pro Datei 100.000

Kontingent für globalen Batch

Die Tabelle zeigt den Grenzwert für ein Batchkontingent. Kontingentwerte für einen globalen Batch werden als Tokens in der Warteschlange dargestellt. Wenn Sie eine Datei zur Batchverarbeitung übermitteln, wird die Anzahl der in der Datei vorhandenen Tokens gezählt. Bis der Batchauftrag einen endgültigen Status erreicht, werden diese Tokens auf Ihren Gesamtgrenzwert der Tokens in der Warteschlange angerechnet.

Modell Enterprise Agreement Standard Monatliche Abonnements mit Kreditkarte MSDN-Abonnements Microsoft Azure for Students, Free Testversionen
gpt-4o 5 B 200 Mio. 50 M 90 K N/V
gpt-4o-mini 15 B 1 Mrd. 50 M 90 K N/V
gpt-4-turbo 300 M 80 Mio. 40 M 90 K N/V
gpt-4 150 M 30 M 5 M 100 N/V
gpt-35-turbo 10 Mrd. 1 Mrd. 100 M 2 M 50

Mrd. = Milliarde | M = Million | K = Tausend

o1-Vorschau- & o1-Mini-Grenzwerte

Wichtig

Das Verhältnis von RPM/TPM für Kontingente mit Modellen der o1-Serie funktioniert anders als ältere Chatvervollständigungsmodelle:

  • Ältere Chatmodelle: 1 Kapazitätseinheit = 6 RPM und 1.000 TPM.
  • o1-preview: 1 Kapazitätseinheit = 1 RPM und 6.000 TPM.
  • o1-mini: 1 Kapazitätseinheit = 1 RPM pro 10.000 TPM.

Dies ist besonders wichtig für die programmgesteuerte Modellbereitstellung, da diese Änderung des Verhältnisses zwischen RPM und TPM zu einer versehentlichen Unterzuteilung des Kontingents führen kann, wenn weiterhin von einem Verhältnis von 1:1000 ausgegangen wird, wie es bei älteren Chatvervollständigungsmodellen üblich ist.

Es gibt ein bekanntes Problem mit der Kontingent-/Verbrauchs-API, bei dem davon ausgegangen wird, dass das alte Verhältnis für die neuen Modelle der o1-Serie gilt. Die API gibt die richtige Grundkapazitätszahl zurück, wendet jedoch nicht das richtige Verhältnis für die genaue Berechnung von TPM an.

o1-Vorschau & o1-Mini globaler Standard

Modell Tarif Kontingentbeschränkung in Token pro Minute (TPM) Anforderungen pro Minute
o1-preview Enterprise Agreement 30 M 5.000
o1-mini Enterprise Agreement 50 M 5.000
o1-preview Standard 3 Mio. 500
o1-mini Standard 5 M 500

o1-Vorschau- & o1-Mini-Standard

Modell Tarif Kontingentbeschränkung in Token pro Minute (TPM) Anforderungen pro Minute
o1-preview Enterprise Agreement 600 K 100
o1-mini Enterprise Agreement 1 M 100
o1-preview Standard 300 K 50
o1-mini Standard 500.000 50

Ratengrenzwerte für gpt-4o und GPT-4 Turbo

gpt-4o und gpt-4o-mini sowie gpt-4 (turbo-2024-04-09) verfügen über Ratengrenzwertebenen mit höheren Grenzwerten für bestimmte Kundentypen.

Globaler Standard für gpt-4o und GPT-4 Turbo

Modell Tarif Kontingentbeschränkung in Token pro Minute (TPM) Anforderungen pro Minute
gpt-4o Enterprise Agreement 30 M 180 Tsd.
gpt-4o-mini Enterprise Agreement 50 M 300 K
gpt-4 (turbo-2024-04-09) Enterprise Agreement 2 M 12 K
gpt-4o Standard 450 K 2,7 K
gpt-4o-mini Standard 2 M 12 K
gpt-4 (turbo-2024-04-09) Standard 450 K 2,7 K

M = Million | K = Tausend

gpt-4o-Datenzonenstandard

Modell Tarif Kontingentbeschränkung in Token pro Minute (TPM) Anforderungen pro Minute
gpt-4o Enterprise Agreement 10 M 60.000
gpt-4o-mini Enterprise Agreement 20 Millionen 120.000
gpt-4o Standard 300 K 1,8 K
gpt-4o-mini Standard 1 M 6 Tsd.

M = Million | K = Tausend

gpt-4o Standard

Modell Tarif Kontingentbeschränkung in Token pro Minute (TPM) Anforderungen pro Minute
gpt-4o Enterprise Agreement 1 M 6 Tsd.
gpt-4o-mini Enterprise Agreement 2 M 12 K
gpt-4o Standard 150 K 900
gpt-4o-mini Standard 450 K 2,7 K

M = Million | K = Tausend

Verwendungsebenen

Globale Standardbereitstellungen verwenden die globale Azure-Infrastruktur und leiten den Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Globale Bereitstellungen ermöglichen Ihnen ebenso, die globale Infrastruktur von Azure zu nutzen, um den Datenverkehr dynamisch an das Rechenzentrum mit der besten Verfügbarkeit für jede Anforderung weiterzuleiten. Das ermöglicht eine konsistentere Wartezeit für Kunden mit geringem bis mittlerem Datenverkehr. Bei Kunden mit einer dauerhaft hohen Nutzung tritt möglicherweise eine höhere Variabilität der Antwortwartezeit auf.

Der Nutzungsgrenzwert bestimmt den Nutzungsgrad, über dem für Kunden möglicherweise eine höhere Variabilität der Antwortwartezeit auftritt. Die Nutzung eines Kunden ist pro Modell definiert und setzt sich aus der Gesamtanzahl der Token zusammen, die von einem bestimmten Mandanten durch alle Bereitstellungen in allen Abonnements und Regionen verbraucht werden.

Hinweis

Verwendungsebenen gelten nur für Standard-, Datenzonenstandard- und globale Standardbereitstellungstypen. Verbrauchsebenen gelten nicht für globale Batch- und bereitgestellte Durchsatzbereitstellungen.

GPT-4o – globaler Standard, Datenzonenstandard und Standard

Modell Nutzungstarife pro Monat
gpt-4o 12 Milliarden Token
gpt-4o-mini 85 Milliarden Token

GPT-4 Standard

Modell Nutzungstarife pro Monat
gpt-4 + gpt-4-32k (alle Versionen) 6 Milliarden

Andere Angebotstypen

Wenn Ihr Azure-Abonnement mit bestimmten Angebotstypen verknüpft ist, sind Ihre maximalen Kontingentwerte niedriger als die in den obigen Tabellen angegebenen Werte.

Tarif Kontingentbeschränkung in Token pro Minute (TPM)
Microsoft Azure for Students, Free Testversionen 1000 (alle Modelle)
MSDN-Abonnements GPT 3.5 Turbo-Serie: 30 000
GPT-4-Serie: 8000
Monatliche Kreditkartenabonnements 1 GPT 3.5 Turbo-Serie: 30 000
GPT-4-Serie: 8000

1 Dies gilt derzeit für den Angebotstyp 0003P

Im Azure-Portal können Sie anzeigen, welcher Angebotstyp Ihrem Abonnement zugeordnet ist, indem Sie zu Ihrem Abonnement navigieren und den Übersichtsbereich der Abonnements überprüfen. Der Angebotstyp entspricht dem Feld „Plan“ in der Abonnementübersicht.

Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben

Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:

  • Implementieren Sie eine Wiederholungslogik in der Anwendung.
  • Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
  • Testen Sie verschiedene Lasterhöhungsmuster.
  • Erhöhen Sie das Ihrer Bereitstellung zugewiesene Kontingent. Verschieben Sie Kontingent bei Bedarf aus einer anderen Bereitstellung.

Anfordern von Erhöhungen der Standardkontingente und Grenzwerte

Anforderungen zur Erhöhung des Kontingents können über die Seite Kontingente in Azure AI Studio gesendet werden. Aufgrund der hohen Nachfrage werden Anfragen zur Kontingenterhöhung akzeptiert und in der Reihenfolge bearbeitet, in der sie eingehen. Kunden, die Datenverkehr generieren, der das vorhandene Kontingent ausschöpft, werden vorrangig behandelt, und Ihre Anforderung kann abgelehnt werden, wenn diese Bedingung nicht erfüllt ist.

Für andere Ratenlimits senden Sie eine Serviceanfrage.

Nächste Schritte

Erfahren Sie, wie Sie das Kontingent für Ihre Azure OpenAI-Bereitstellungen verwalten. Erfahren Sie mehr über die zugrunde liegenden Modelle, auf denen Azure OpenAI basiert.