Kontingente und Grenzwerte für Azure OpenAI Service
Dieser Artikel enthält eine Kurzübersicht und eine ausführliche Beschreibung der Kontingente und Grenzwerte für Azure OpenAI in Azure KI Services.
Referenz zu Kontingenten und Grenzwerten
Folgende Abschnitte enthalten einen kurzen Leitfaden zu den Standard-Kontingenten und Grenzwerten, die für Azure OpenAI gelten:
Name des Grenzwerts | Wert des Grenzwerts |
---|---|
OpenAI-Ressourcen pro Region und Azure-Abonnement | 30 |
Standardlimits für DALL-E 2-Kontingente | 2 gleichzeitige Anforderungen |
Standardlimits für DALL-E 3-Kontingente | 2 Kapazitätseinheiten (6 Anforderungen pro Minute) |
Standardmäßige Whisper-Kontingentgrenzwerte | 3 Anforderungen pro Minute |
Maximale Anzahl von Eingabeaufforderungstoken pro Anforderung | Variiert je nach Modell. Weitere Informationen dazu finden Sie unter Azure OpenAI-Servicemodelle. |
Maximale Standardbereitstellungen pro Ressourcengruppe | 32 |
Max. optimierte Modellimplementierungen | 5 |
Gesamtzahl der Trainingsaufträge pro Ressource | 100 |
Maximale Anzahl gleichzeitig ausgeführter Trainingsaufträge pro Ressource | 1 |
Maximale Anzahl von Trainingsaufträgen in der Warteschlange | 20 |
Maximale Anzahl von Dateien pro Ressource (Feinabstimmung) | 50 |
Gesamtgröße aller Dateien pro Ressource (Feinabstimmung) | 1 GB |
Maximale Dauer von Trainingsaufträgen (Auftrag schlägt bei Überschreitung fehl) | 720 Stunden |
Maximale Größe von Trainingsaufträgen (Token in der Trainingsdatei) × (Anzahl von Epochen) | 2 Milliarden |
Maximale Größe aller Dateien pro Upload (Azure OpenAI für Ihre Daten) | 16 MB |
Maximale Anzahl oder Eingaben in Array mit /embeddings |
2048 |
Maximale Anzahl von /chat/completions -Nachrichten |
2048 |
Maximale Anzahl von /chat/completions -Funktionen |
128 |
Maximale Anzahl von /chat completions -Tools |
128 |
Maximale Anzahl von bereitgestellten Durchsatzeinheiten pro Bereitstellung | 100.000 |
Maximale Anzahl von Dateien pro Assistent/Thread | 10.000 bei Verwendung der API oder von KI Studio. 20 bei Verwendung von Azure OpenAI Studio. |
Maximale Dateigröße für Assistenten und zur Optimierung | 512 MB |
Maximale Größe für alle hochgeladenen Dateien für Assistenten | 100 GB |
Tokenlimit für Assistenten | Limit von 2.000.000 Token |
Maximale Anzahl GPT-4o-Bilder pro Anforderung (Anzahl von Bildern im Nachrichtenarray/in aufgezeichneten Unterhaltungen) | 10 |
Maximale Anzahl GPT-4 vision-preview - & GPT-4 turbo-2024-04-09 -Standardtoken |
16 Erhöhen Sie den max_tokens -Parameterwert, um abgeschnittene Antworten zu vermeiden. Maximale Anzahl GPT-4o-Token ist standardmäßig 4096. |
Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen1 | 10 |
Maximale Anzahl Anforderungen pro Minute Aktuelle Ratengrenzwerte für Echtzeitaudio ( gpt-4o-realtime-preview ) werden als Anzahl neuer Websocketverbindungen pro Minute definiert. Beispielsweise bedeutet 6 Anforderung pro Minute (RPM) 6 neue Verbindungen pro Minute. Derzeit eignen sich die Verbrauchsgrenzwerte für gpt-4o-realtime-preview für Test und Entwicklung. |
6 neue Verbindungen pro Minute |
1 Unsere aktuellen APIs ermöglichen bis zu 10 benutzerdefinierte Header, die über die Pipeline übergeben und zurückgegeben werden. Einige Kunden überschreiten diese Headeranzahl jetzt, was zu HTTP 431-Fehlern führt. Für diese Fehler gibt es keine Lösung, außer die Headeranzahl zu reduzieren. In zukünftigen API-Versionen werden keine benutzerdefinierten Header mehr übergeben. Es wird empfohlen, dass Kunden in zukünftigen Systemarchitekturen nicht von benutzerdefinierten Headern abhängen.
Regionale Kontingentgrenzen
Region | o1-mini | O1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Instruct | o1-mini - GlobalStandard | o1 - GlobalStandard | gpt-4o – GlobalStandard | gpt-4o-mini – GlobalStandard | GPT-4-Turbo – GlobalStandard | GPT-4o – Global-Batch | GPT-4o-mini – Global-Batch | GPT-4 – Global-Batch | GPT-4-Turbo – Global-Batch | gpt-35-turbo – Global-Batch | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | GPT-4o – finetune | GPT-4o-mini – finetune | GPT-4 – finetune | Babbage-002 | Babbage-002 – Optimierung | Davinci-002 | Davinci-002 – Optimierung | GPT-35-Turbo – Optimierung | GPT-35-Turbo-1106 – Optimierung | GPT-35-Turbo-0125 – Optimierung |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40 Tsd. | 80.000 | 80.000 | 30.000 | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40 Tsd. | 80.000 | 80.000 | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 M | 600 K | - | - | 80.000 | - | 1 M | 2 M | 240.000 | 240.000 | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 Mrd. | 150 M | 300 M | 10 Mrd. | 240.000 | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600 K | - | - | 80.000 | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | 250 Tsd. | - | - | - | - | - | - | 250 Tsd. | 250 Tsd. | 250 Tsd. |
francecentral | - | - | 20 Tsd. | 60.000 | 80.000 | - | - | - | 240.000 | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240.000 | - | 350 K | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30.000 | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 M | 600 K | - | - | 80.000 | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | 250 Tsd. | 500.000 | 100 | 240.000 | 250 Tsd. | 240.000 | 250 Tsd. | 250 Tsd. | 250 Tsd. | 250 Tsd. |
norwayeast | - | - | - | - | 150 K | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
southcentralus | 1 M | 600 K | - | - | 80.000 | - | 1 M | 2 M | 240.000 | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 240.000 | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150 K | - | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
spaincentral | - | - | - | - | - | - | - | - | - | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
swedencentral | 1 M | 600 K | 40 Tsd. | 80.000 | 150 K | 30.000 | 1 M | 2 M | 300 K | 240.000 | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 Mrd. | 150 M | 300 M | 10 Mrd. | 350 K | - | 350 K | 250 Tsd. | 500.000 | 100 | 240.000 | 250 Tsd. | 240.000 | 250 Tsd. | 250 Tsd. | 250 Tsd. | 250 Tsd. |
switzerlandnorth | - | - | 40 Tsd. | 80.000 | - | 30.000 | - | - | 300 K | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 Tsd. | - | 250 Tsd. | 250 Tsd. | 250 Tsd. | 250 Tsd. |
uksouth | - | - | - | - | 80.000 | - | - | - | 240.000 | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240.000 | - | - | - | 30 M | 50 M | 2 M | - | - | - | - | - | 240.000 | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 M | 600 K | - | - | 80.000 | 30.000 | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | 5 B | 15 Mrd. | 150 M | 300 M | 10 Mrd. | 350 K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 M | 600 K | - | - | 80.000 | - | 1 M | 2 M | 300 K | - | 50 M | 30 M | 30 M | 50 M | 2 M | - | - | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
Grenzwerte für einen globalen Batch
Name des Grenzwerts | Wert des Grenzwerts |
---|---|
Maximale Anzahl von Dateien pro Ressource | 500 |
Maximale Größe der Eingabedatei | 200 MB |
Maximale Anforderungen pro Datei | 100.000 |
Kontingent für globalen Batch
Die Tabelle zeigt den Grenzwert für ein Batchkontingent. Kontingentwerte für einen globalen Batch werden als Tokens in der Warteschlange dargestellt. Wenn Sie eine Datei zur Batchverarbeitung übermitteln, wird die Anzahl der in der Datei vorhandenen Tokens gezählt. Bis der Batchauftrag einen endgültigen Status erreicht, werden diese Tokens auf Ihren Gesamtgrenzwert der Tokens in der Warteschlange angerechnet.
Modell | Enterprise Agreement | Standard | Monatliche Abonnements mit Kreditkarte | MSDN-Abonnements | Microsoft Azure for Students, Free Testversionen |
---|---|---|---|---|---|
gpt-4o |
5 B | 200 Mio. | 50 M | 90 K | N/V |
gpt-4o-mini |
15 B | 1 Mrd. | 50 M | 90 K | N/V |
gpt-4-turbo |
300 M | 80 Mio. | 40 M | 90 K | N/V |
gpt-4 |
150 M | 30 M | 5 M | 100 | N/V |
gpt-35-turbo |
10 Mrd. | 1 Mrd. | 100 M | 2 M | 50 |
Mrd. = Milliarde | M = Million | K = Tausend
o1-Vorschau- & o1-Mini-Grenzwerte
Wichtig
Das Verhältnis von RPM/TPM für Kontingente mit Modellen der o1-Serie funktioniert anders als ältere Chatvervollständigungsmodelle:
- Ältere Chatmodelle: 1 Kapazitätseinheit = 6 RPM und 1.000 TPM.
- o1-preview: 1 Kapazitätseinheit = 1 RPM und 6.000 TPM.
- o1-mini: 1 Kapazitätseinheit = 1 RPM pro 10.000 TPM.
Dies ist besonders wichtig für die programmgesteuerte Modellbereitstellung, da diese Änderung des Verhältnisses zwischen RPM und TPM zu einer versehentlichen Unterzuteilung des Kontingents führen kann, wenn weiterhin von einem Verhältnis von 1:1000 ausgegangen wird, wie es bei älteren Chatvervollständigungsmodellen üblich ist.
Es gibt ein bekanntes Problem mit der Kontingent-/Verbrauchs-API, bei dem davon ausgegangen wird, dass das alte Verhältnis für die neuen Modelle der o1-Serie gilt. Die API gibt die richtige Grundkapazitätszahl zurück, wendet jedoch nicht das richtige Verhältnis für die genaue Berechnung von TPM an.
o1-Vorschau & o1-Mini globaler Standard
Modell | Tarif | Kontingentbeschränkung in Token pro Minute (TPM) | Anforderungen pro Minute |
---|---|---|---|
o1-preview |
Enterprise Agreement | 30 M | 5.000 |
o1-mini |
Enterprise Agreement | 50 M | 5.000 |
o1-preview |
Standard | 3 Mio. | 500 |
o1-mini |
Standard | 5 M | 500 |
o1-Vorschau- & o1-Mini-Standard
Modell | Tarif | Kontingentbeschränkung in Token pro Minute (TPM) | Anforderungen pro Minute |
---|---|---|---|
o1-preview |
Enterprise Agreement | 600 K | 100 |
o1-mini |
Enterprise Agreement | 1 M | 100 |
o1-preview |
Standard | 300 K | 50 |
o1-mini |
Standard | 500.000 | 50 |
Ratengrenzwerte für gpt-4o und GPT-4 Turbo
gpt-4o
und gpt-4o-mini
sowie gpt-4
(turbo-2024-04-09
) verfügen über Ratengrenzwertebenen mit höheren Grenzwerten für bestimmte Kundentypen.
Globaler Standard für gpt-4o und GPT-4 Turbo
Modell | Tarif | Kontingentbeschränkung in Token pro Minute (TPM) | Anforderungen pro Minute |
---|---|---|---|
gpt-4o |
Enterprise Agreement | 30 M | 180 Tsd. |
gpt-4o-mini |
Enterprise Agreement | 50 M | 300 K |
gpt-4 (turbo-2024-04-09) |
Enterprise Agreement | 2 M | 12 K |
gpt-4o |
Standard | 450 K | 2,7 K |
gpt-4o-mini |
Standard | 2 M | 12 K |
gpt-4 (turbo-2024-04-09) |
Standard | 450 K | 2,7 K |
M = Million | K = Tausend
gpt-4o-Datenzonenstandard
Modell | Tarif | Kontingentbeschränkung in Token pro Minute (TPM) | Anforderungen pro Minute |
---|---|---|---|
gpt-4o |
Enterprise Agreement | 10 M | 60.000 |
gpt-4o-mini |
Enterprise Agreement | 20 Millionen | 120.000 |
gpt-4o |
Standard | 300 K | 1,8 K |
gpt-4o-mini |
Standard | 1 M | 6 Tsd. |
M = Million | K = Tausend
gpt-4o Standard
Modell | Tarif | Kontingentbeschränkung in Token pro Minute (TPM) | Anforderungen pro Minute |
---|---|---|---|
gpt-4o |
Enterprise Agreement | 1 M | 6 Tsd. |
gpt-4o-mini |
Enterprise Agreement | 2 M | 12 K |
gpt-4o |
Standard | 150 K | 900 |
gpt-4o-mini |
Standard | 450 K | 2,7 K |
M = Million | K = Tausend
Verwendungsebenen
Globale Standardbereitstellungen verwenden die globale Azure-Infrastruktur und leiten den Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Globale Bereitstellungen ermöglichen Ihnen ebenso, die globale Infrastruktur von Azure zu nutzen, um den Datenverkehr dynamisch an das Rechenzentrum mit der besten Verfügbarkeit für jede Anforderung weiterzuleiten. Das ermöglicht eine konsistentere Wartezeit für Kunden mit geringem bis mittlerem Datenverkehr. Bei Kunden mit einer dauerhaft hohen Nutzung tritt möglicherweise eine höhere Variabilität der Antwortwartezeit auf.
Der Nutzungsgrenzwert bestimmt den Nutzungsgrad, über dem für Kunden möglicherweise eine höhere Variabilität der Antwortwartezeit auftritt. Die Nutzung eines Kunden ist pro Modell definiert und setzt sich aus der Gesamtanzahl der Token zusammen, die von einem bestimmten Mandanten durch alle Bereitstellungen in allen Abonnements und Regionen verbraucht werden.
Hinweis
Verwendungsebenen gelten nur für Standard-, Datenzonenstandard- und globale Standardbereitstellungstypen. Verbrauchsebenen gelten nicht für globale Batch- und bereitgestellte Durchsatzbereitstellungen.
GPT-4o – globaler Standard, Datenzonenstandard und Standard
Modell | Nutzungstarife pro Monat |
---|---|
gpt-4o |
12 Milliarden Token |
gpt-4o-mini |
85 Milliarden Token |
GPT-4 Standard
Modell | Nutzungstarife pro Monat |
---|---|
gpt-4 + gpt-4-32k (alle Versionen) |
6 Milliarden |
Andere Angebotstypen
Wenn Ihr Azure-Abonnement mit bestimmten Angebotstypen verknüpft ist, sind Ihre maximalen Kontingentwerte niedriger als die in den obigen Tabellen angegebenen Werte.
Tarif | Kontingentbeschränkung in Token pro Minute (TPM) |
---|---|
Microsoft Azure for Students, Free Testversionen | 1000 (alle Modelle) |
MSDN-Abonnements | GPT 3.5 Turbo-Serie: 30 000 GPT-4-Serie: 8000 |
Monatliche Kreditkartenabonnements 1 | GPT 3.5 Turbo-Serie: 30 000 GPT-4-Serie: 8000 |
1 Dies gilt derzeit für den Angebotstyp 0003P
Im Azure-Portal können Sie anzeigen, welcher Angebotstyp Ihrem Abonnement zugeordnet ist, indem Sie zu Ihrem Abonnement navigieren und den Übersichtsbereich der Abonnements überprüfen. Der Angebotstyp entspricht dem Feld „Plan“ in der Abonnementübersicht.
Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben
Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:
- Implementieren Sie eine Wiederholungslogik in der Anwendung.
- Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
- Testen Sie verschiedene Lasterhöhungsmuster.
- Erhöhen Sie das Ihrer Bereitstellung zugewiesene Kontingent. Verschieben Sie Kontingent bei Bedarf aus einer anderen Bereitstellung.
Anfordern von Erhöhungen der Standardkontingente und Grenzwerte
Anforderungen zur Erhöhung des Kontingents können über die Seite Kontingente in Azure AI Studio gesendet werden. Aufgrund der hohen Nachfrage werden Anfragen zur Kontingenterhöhung akzeptiert und in der Reihenfolge bearbeitet, in der sie eingehen. Kunden, die Datenverkehr generieren, der das vorhandene Kontingent ausschöpft, werden vorrangig behandelt, und Ihre Anforderung kann abgelehnt werden, wenn diese Bedingung nicht erfüllt ist.
Für andere Ratenlimits senden Sie eine Serviceanfrage.
Nächste Schritte
Erfahren Sie, wie Sie das Kontingent für Ihre Azure OpenAI-Bereitstellungen verwalten. Erfahren Sie mehr über die zugrunde liegenden Modelle, auf denen Azure OpenAI basiert.