Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Artikel enthält eine Kurzübersicht und detaillierte Beschreibung der Kontingente und Grenzwerte für Foundry Models, die direkt von Azure verkauft werden. Kontingente und Grenzwerte für die Azure OpenAI in Foundry Models finden Sie unter Quotas und Grenzwerte in Azure OpenAI.
Referenz zu Kontingenten und Grenzwerten
In den folgenden Abschnitten finden Sie eine kurze Anleitung zu den Standardkontingenten und Grenzwerten, die für Foundry-Modelle gelten:
Ressourcenbeschränkungen (pro Azure Abonnement, pro Region)
| Name des Grenzwerts | Grenzwert |
|---|---|
| Gießereiressourcen pro Region pro Azure Abonnement | 100 |
| Max. Projekte pro Ressource | 250 |
| Maximale Bereitstellungen pro Ressource (Modell-Bereitstellungen innerhalb einer Foundry-Ressource) | 32 |
Ratenbeschränkungen
In der folgenden Tabelle sind Grenzwerte für Foundry Models für die folgenden Tarife aufgeführt:
- Token pro Minute
- Anfragen pro Minute
- Gleichzeitige Anfrage
| Modelle | Token pro Minute | Anfragen pro Minute | Gleichzeitige Anforderungen |
|---|---|---|---|
| Azure OpenAI-Modelle | Variiert je nach Modell und SKU. Siehe limits für Azure OpenAI. | Variiert je nach Modell und SKU. Siehe limits für Azure OpenAI. | Variiert. Siehe Azure OpenAI-Grenzwerte. |
| - DeepSeek-R1 - DeepSeek-V3-0324 |
5,000,000 | 5,000 | 300 |
| - Llama 3.3 70B Anweisung - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini |
400,000 | 1,000 | 300 |
| - Flux.2-Pro | nicht anwendbar | - Niedrig (Standard): 15 - Mittel: 30 - Hoch (Enterprise): 100 |
nicht anwendbar |
| - Flux-Pro 1.1 - Flux.1-Kontext Pro |
nicht anwendbar | 2 Kapazitätseinheiten (6 Anforderungen pro Minute) | nicht anwendbar |
| Restliche Modelle | 400,000 | 1,000 | 300 |
So erhöhen Sie Ihr Kontingent:
- Verwenden Sie für Azure OpenAI den Foundry Service: Anfrage zur Erhöhung des Kontingents, um Ihre Anfrage einzureichen.
- Weitere Modelle finden Sie unter Anforderungserhöhungen zu den Standardgrenzwerten.
Aufgrund der hohen Nachfrage werden Grenzwerterhöhungsanforderungen einzeln ausgewertet.
Andere Grenzwerte
| Name des Grenzwerts | Grenzwert |
|---|---|
| Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen1 | 10 |
1 Aktuelle APIs ermöglichen bis zu 10 benutzerdefinierte Header, die die Pipeline durchläuft und zurückgibt. Wenn Sie diese Headeranzahl überschreiten, führt ihre Anforderung zu einem HTTP 431-Fehler. Um diesen Fehler zu beheben, verringern Sie das Headervolume. Zukünftige API-Versionen werden keine benutzerdefinierten Header durchlaufen. Hängen Sie nicht von benutzerdefinierten Headern in zukünftigen Systemarchitekturen ab.
Verwendungsebenen
Globale Standardbereitstellungen verwenden die globale Infrastruktur von Azure, um den Kundendatenverkehr dynamisch an das Rechenzentrum weiterzuleiten und die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden zu erzielen. Diese Infrastruktur ermöglicht eine konsistentere Latenz für Kunden mit geringem bis mittlerem Datenverkehrsniveau. Kunden mit einem hohen dauerhaften Nutzungsgrad sehen möglicherweise mehr Variabilitäten bei der Antwortlatenz.
Der Nutzungsgrenzwert bestimmt den Umfang der Nutzung, über dem Kunden möglicherweise eine größere Variabilität bei der Antwortlatenz sehen können. Die Nutzung eines Kunden wird pro Modell definiert und ist die Gesamtanzahl der Token, die in allen Bereitstellungen in allen Abonnements in allen Regionen für einen bestimmten Mandanten verbraucht werden.
Anfragen zur Erhöhung der Standardgrenzwerte
Übermitteln Sie das Formular für die Quotenanfrage zum Erhöhen der Kontingente, um Kontingenterhöhungen für Foundry Modelle, die direkt von Azure verkauft werden, Azure OpenAI-Modelle und Anthropic Modelle anzufragen. Mit Ausnahme von Anthropic-Modellen unterstützen Modelle von Partnern und der Community keine Kontingenterhöhungen.
Kontingenterhöhungsanforderungen werden in der Reihenfolge verarbeitet, in der sie empfangen werden, und Priorität geht an Kunden, die ihre vorhandene Kontingentzuweisung aktiv verwenden. Anforderungen, die diese Bedingung nicht erfüllen, werden möglicherweise verweigert.
Allgemeine bewährte Methoden zum Beibehalten von Zinslimits
Verwenden Sie die folgenden Techniken, um Probleme im Zusammenhang mit Zinslimits zu minimieren:
- Implementieren Sie die Wiederholungslogik in Ihrer Anwendung.
- Vermeiden Sie scharfe Änderungen an der Arbeitsauslastung. Erhöhen Sie die Arbeitsauslastung schrittweise.
- Testen Sie unterschiedliche Auslastungserhöhungsmuster.
- Erhöhen Sie das Kontingent, das Ihrer Bereitstellung zugewiesen ist. Verschieben Sie das Kontingent bei Bedarf aus einer anderen Bereitstellung.
Festlegen eines clientseitigen Timeouts
Legen Sie das clientseitige Timeout explizit basierend auf den folgenden Anweisungen fest.
Hinweis
Wenn nicht explizit festgelegt, existiert das clientseitige Timeout gemäß der verwendeten Bibliothek und kann sich von den oben genannten Grenzwerten unterscheiden.
- Reasoning-Modelle (Modelle, die Zwischengrundlegungstoken generieren, bevor eine zusammengefasste Antwort erstellt wird): bis zu 29 Minuten.
- Nicht-Schlussfolgerungsmodelle
- Für streaming, bis zu 60 Sekunden.
- Bei Nicht-Streaming-Anforderungen bis zu 29 Minuten.
29 Minuten bedeutet hier nicht, dass alle Anforderungen 29 Minuten dauern, sondern je nach Kontexttoken, generierten Token und Cachetreffraten können Anforderungen bis zu 29 Minuten dauern.
Legen Sie ein Timeout fest, das kleiner als diese Werte ist und auf Ihre Verkehrsmuster abgestimmt ist.
Für Begründungsmodelle, einschließlich Streaminganforderungen, werden zunächst alle Token generiert und dann zusammengefasst, bevor das erste Antworttoken an den Benutzer gesendet wird.
Sie können den Parameter "Reasoning Effort " ändern, um die Anzahl der im Prozess generierten Begründungstoken zu steuern.
Problembehandlung
| Symptom | Ursache | Auflösung |
|---|---|---|
| HTTP 429 zu viele Anforderungen | Der Grenzwert für Token pro Minute oder Anforderung pro Minute wurde überschritten. | Implementieren Sie Wiederholungslogik mit exponentiellem Backoff. Verwenden Sie den Retry-After Headerwert. |
| HTTP 431-Anforderungsheaderfelder zu groß | Mehr als 10 benutzerdefinierte Kopfzeilen gesendet | Reduzieren Sie benutzerdefinierte Kopfzeilen auf 10 oder weniger. |
| Die Seite "Kontingent" zeigt 0 verfügbar | Vollständig zugewiesenes Abonnement- oder regionales Kontingent | Verschieben Sie das nicht verwendete Kontingent aus einer anderen Bereitstellung. Um Ihren Grenzwert zu erhöhen, fordern Sie eine Kontingenterhöhung an. |
| Modell nicht in Region verfügbar | Das Modell wird in der ausgewählten Region nicht bereitgestellt oder unterstützt. | Überprüfen Sie die Verfügbarkeit des Modells , und wählen Sie eine verfügbare Region aus. |