Kontingente und Grenzwerte für Azure OpenAI Service
Dieser Artikel enthält eine Kurzübersicht und eine ausführliche Beschreibung der Kontingente und Grenzwerte für Azure OpenAI in Azure KI Services.
Referenz zu Kontingenten und Grenzwerten
Folgende Abschnitte enthalten einen kurzen Leitfaden zu den Standard-Kontingenten und Grenzwerten, die für Azure OpenAI gelten:
Name des Grenzwerts | Wert des Grenzwerts |
---|---|
OpenAI-Ressourcen pro Region und Azure-Abonnement | 30 |
Standardlimits für DALL-E 2-Kontingente | 2 gleichzeitige Anforderungen |
Standardlimits für DALL-E 3-Kontingente | 2 Kapazitätseinheiten (6 Anforderungen pro Minute) |
Maximale Anzahl von Eingabeaufforderungstoken pro Anforderung | Variiert je nach Modell. Weitere Informationen dazu finden Sie unter Azure OpenAI-Servicemodelle. |
Max. optimierte Modellimplementierungen | 5 |
Gesamtzahl der Trainingsaufträge pro Ressource | 100 |
Maximale Anzahl gleichzeitig ausgeführter Trainingsaufträge pro Ressource | 1 |
Maximale Anzahl von Trainingsaufträgen in der Warteschlange | 20 |
Maximale Anzahl von Dateien pro Ressource (Feinabstimmung) | 50 |
Gesamtgröße aller Dateien pro Ressource (Feinabstimmung) | 1 GB |
Maximale Dauer von Trainingsaufträgen (Auftrag schlägt bei Überschreitung fehl) | 720 Stunden |
Maximale Größe von Trainingsaufträgen (Token in der Trainingsdatei) × (Anzahl von Epochen) | 2 Milliarden |
Maximale Größe aller Dateien pro Upload (Azure OpenAI für Ihre Daten) | 16 MB |
Maximale Anzahl oder Eingaben in Array mit /embeddings |
2048 |
Maximale Anzahl von /chat/completions -Nachrichten |
2048 |
Maximale Anzahl von /chat/completions -Funktionen |
128 |
Maximale Anzahl von /chat completions -Tools |
128 |
Maximale Anzahl von bereitgestellten Durchsatzeinheiten pro Bereitstellung | 100.000 |
Maximale Anzahl von Dateien pro Assistent/Thread | 20 |
Maximale Dateigröße für Assistenten und zur Optimierung | 512 MB |
Tokenlimit für Assistenten | Limit von 2.000.000 Token |
Regionale Kontingentgrenzen
Das Standardkontingent für Modelle variiert je nach Modell und Region. Die Standardkontingentgrenzwerte können sich ändern.
Das Kontingent für Standardbereitstellungen wird in Bezug auf Token-Per-Minute (TPM) beschrieben.
Region | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 – Optimierung | Davinci-002 | Davinci-002 – Optimierung | GPT-35-Turbo – Optimierung | GPT-35-Turbo-1106 – Optimierung | GPT-35-Turbo-0125 – Optimierung |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 Tsd. | 80.000 | 80.000 | 30.000 | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
canadaeast | 40 Tsd. | 80.000 | 80.000 | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus | - | - | 80.000 | - | 240.000 | 240.000 | 240.000 | 350 K | 350 K | - | - | - | - | - | - | - |
eastus2 | - | - | 80.000 | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 Tsd. | 250 Tsd. | 250 Tsd. |
francecentral | 20 Tsd. | 60.000 | 80.000 | - | 240.000 | - | 240.000 | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30.000 | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80.000 | - | 300 K | - | 350 K | - | - | 240.000 | 250 Tsd. | 240.000 | 250 Tsd. | 250 Tsd. | 250 Tsd. | 250 Tsd. |
norwayeast | - | - | 150 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80.000 | - | 240.000 | - | 240.000 | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
swedencentral | 40 Tsd. | 80.000 | 150 K | 30.000 | 300 K | 240.000 | 350 K | - | - | 240.000 | 250 Tsd. | 240.000 | 250 Tsd. | 250 Tsd. | 250 Tsd. | 250 Tsd. |
switzerlandnorth | 40 Tsd. | 80.000 | - | 30.000 | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | 250 Tsd. | - | 250 Tsd. | 250 Tsd. | 250 Tsd. | 250 Tsd. |
uksouth | - | - | 80.000 | - | 240.000 | - | 350 K | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | 240.000 | - | 240.000 | - | - | - | - | - | - | - | - | - |
westus | - | - | 80.000 | 30.000 | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80.000 | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
1 K = 1.000 Token pro Minute (TPM). Die Beziehung zwischen TPM und Anforderungen pro Minute (RPM) ist derzeit als 6 RPM pro 1.000 TPM definiert.
Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben
Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:
- Implementieren Sie eine Wiederholungslogik in der Anwendung.
- Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
- Testen Sie verschiedene Lasterhöhungsmuster.
- Erhöhen Sie das Ihrer Bereitstellung zugewiesene Kontingent. Verschieben Sie Kontingent bei Bedarf aus einer anderen Bereitstellung.
Anfordern von Erhöhungen der Standardkontingente und Grenzwerte
Anforderungen zur Erhöhung des Kontingents können über die Seite Kontingente von Azure OpenAI Studio übermittelt werden. Beachten Sie, dass aufgrund der großen Nachfrage Anforderungen zur Kontingenterhöhung akzeptiert und in der Eingangsreihenfolge bedient werden. Kund*innen, die Datenverkehr erzeugen, der das vorhandene Kontingent ausschöpft, werden vorrangig behandelt, und Ihre Anforderung kann abgelehnt werden, wenn diese Bedingung nicht erfüllt ist.
Für andere Ratenlimits senden Sie bitte eine Serviceanfrage.
Nächste Schritte
Erfahren Sie, wie Sie das Kontingent für Ihre Azure OpenAI-Bereitstellungen verwalten. Erfahren Sie mehr über die zugrunde liegenden Modelle, auf denen Azure OpenAI basiert.