Microsoft Foundry-Modelle: Kontingente und Grenzwerte

Dieser Artikel enthält eine Kurzübersicht und detaillierte Beschreibung der Kontingente und Grenzwerte für Foundry Models, die direkt von Azure verkauft werden. Kontingente und Grenzwerte für die Azure OpenAI in Foundry Models finden Sie unter Quotas und Grenzwerte in Azure OpenAI.

Referenz zu Kontingenten und Grenzwerten

In den folgenden Abschnitten finden Sie eine kurze Anleitung zu den Standardkontingenten und Grenzwerten, die für Foundry-Modelle gelten:

Ressourcenbeschränkungen (pro Azure Abonnement, pro Region)

Name des Grenzwerts Grenzwert
Gießereiressourcen pro Region pro Azure Abonnement 100
Max. Projekte pro Ressource 250
Maximale Bereitstellungen pro Ressource (Modell-Bereitstellungen innerhalb einer Foundry-Ressource) 32

Ratenbeschränkungen

In der folgenden Tabelle sind Grenzwerte für Foundry Models für die folgenden Tarife aufgeführt:

  • Token pro Minute
  • Anfragen pro Minute
  • Gleichzeitige Anfrage
Modelle Token pro Minute Anfragen pro Minute Gleichzeitige Anforderungen
Azure OpenAI-Modelle Variiert je nach Modell und SKU. Siehe limits für Azure OpenAI. Variiert je nach Modell und SKU. Siehe limits für Azure OpenAI. Variiert. Siehe Azure OpenAI-Grenzwerte.
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5,000 300
- Llama 3.3 70B Anweisung
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- Grok 3 mini
400,000 1,000 300
- Flux.2-Pro nicht anwendbar - Niedrig (Standard): 15
- Mittel: 30
- Hoch (Enterprise): 100
nicht anwendbar
- Flux-Pro 1.1
- Flux.1-Kontext Pro
nicht anwendbar 2 Kapazitätseinheiten (6 Anforderungen pro Minute) nicht anwendbar
Restliche Modelle 400,000 1,000 300

So erhöhen Sie Ihr Kontingent:

Aufgrund der hohen Nachfrage werden Grenzwerterhöhungsanforderungen einzeln ausgewertet.

Andere Grenzwerte

Name des Grenzwerts Grenzwert
Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen1 10

1 Aktuelle APIs ermöglichen bis zu 10 benutzerdefinierte Header, die die Pipeline durchläuft und zurückgibt. Wenn Sie diese Headeranzahl überschreiten, führt ihre Anforderung zu einem HTTP 431-Fehler. Um diesen Fehler zu beheben, verringern Sie das Headervolume. Zukünftige API-Versionen werden keine benutzerdefinierten Header durchlaufen. Hängen Sie nicht von benutzerdefinierten Headern in zukünftigen Systemarchitekturen ab.

Verwendungsebenen

Globale Standardbereitstellungen verwenden die globale Infrastruktur von Azure, um den Kundendatenverkehr dynamisch an das Rechenzentrum weiterzuleiten und die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden zu erzielen. Diese Infrastruktur ermöglicht eine konsistentere Latenz für Kunden mit geringem bis mittlerem Datenverkehrsniveau. Kunden mit einem hohen dauerhaften Nutzungsgrad sehen möglicherweise mehr Variabilitäten bei der Antwortlatenz.

Der Nutzungsgrenzwert bestimmt den Umfang der Nutzung, über dem Kunden möglicherweise eine größere Variabilität bei der Antwortlatenz sehen können. Die Nutzung eines Kunden wird pro Modell definiert und ist die Gesamtanzahl der Token, die in allen Bereitstellungen in allen Abonnements in allen Regionen für einen bestimmten Mandanten verbraucht werden.

Anfragen zur Erhöhung der Standardgrenzwerte

Übermitteln Sie das Formular für die Quotenanfrage zum Erhöhen der Kontingente, um Kontingenterhöhungen für Foundry Modelle, die direkt von Azure verkauft werden, Azure OpenAI-Modelle und Anthropic Modelle anzufragen. Mit Ausnahme von Anthropic-Modellen unterstützen Modelle von Partnern und der Community keine Kontingenterhöhungen.

Kontingenterhöhungsanforderungen werden in der Reihenfolge verarbeitet, in der sie empfangen werden, und Priorität geht an Kunden, die ihre vorhandene Kontingentzuweisung aktiv verwenden. Anforderungen, die diese Bedingung nicht erfüllen, werden möglicherweise verweigert.

Allgemeine bewährte Methoden zum Beibehalten von Zinslimits

Verwenden Sie die folgenden Techniken, um Probleme im Zusammenhang mit Zinslimits zu minimieren:

  • Implementieren Sie die Wiederholungslogik in Ihrer Anwendung.
  • Vermeiden Sie scharfe Änderungen an der Arbeitsauslastung. Erhöhen Sie die Arbeitsauslastung schrittweise.
  • Testen Sie unterschiedliche Auslastungserhöhungsmuster.
  • Erhöhen Sie das Kontingent, das Ihrer Bereitstellung zugewiesen ist. Verschieben Sie das Kontingent bei Bedarf aus einer anderen Bereitstellung.

Festlegen eines clientseitigen Timeouts

Legen Sie das clientseitige Timeout explizit basierend auf den folgenden Anweisungen fest.

Hinweis

Wenn nicht explizit festgelegt, existiert das clientseitige Timeout gemäß der verwendeten Bibliothek und kann sich von den oben genannten Grenzwerten unterscheiden.

  • Reasoning-Modelle (Modelle, die Zwischengrundlegungstoken generieren, bevor eine zusammengefasste Antwort erstellt wird): bis zu 29 Minuten.
  • Nicht-Schlussfolgerungsmodelle
    • Für streaming, bis zu 60 Sekunden.
    • Bei Nicht-Streaming-Anforderungen bis zu 29 Minuten.

29 Minuten bedeutet hier nicht, dass alle Anforderungen 29 Minuten dauern, sondern je nach Kontexttoken, generierten Token und Cachetreffraten können Anforderungen bis zu 29 Minuten dauern.

Legen Sie ein Timeout fest, das kleiner als diese Werte ist und auf Ihre Verkehrsmuster abgestimmt ist.

Für Begründungsmodelle, einschließlich Streaminganforderungen, werden zunächst alle Token generiert und dann zusammengefasst, bevor das erste Antworttoken an den Benutzer gesendet wird.

Sie können den Parameter "Reasoning Effort " ändern, um die Anzahl der im Prozess generierten Begründungstoken zu steuern.

Problembehandlung

Symptom Ursache Auflösung
HTTP 429 zu viele Anforderungen Der Grenzwert für Token pro Minute oder Anforderung pro Minute wurde überschritten. Implementieren Sie Wiederholungslogik mit exponentiellem Backoff. Verwenden Sie den Retry-After Headerwert.
HTTP 431-Anforderungsheaderfelder zu groß Mehr als 10 benutzerdefinierte Kopfzeilen gesendet Reduzieren Sie benutzerdefinierte Kopfzeilen auf 10 oder weniger.
Die Seite "Kontingent" zeigt 0 verfügbar Vollständig zugewiesenes Abonnement- oder regionales Kontingent Verschieben Sie das nicht verwendete Kontingent aus einer anderen Bereitstellung. Um Ihren Grenzwert zu erhöhen, fordern Sie eine Kontingenterhöhung an.
Modell nicht in Region verfügbar Das Modell wird in der ausgewählten Region nicht bereitgestellt oder unterstützt. Überprüfen Sie die Verfügbarkeit des Modells , und wählen Sie eine verfügbare Region aus.