Teilen über


Dynamisches Kontingent in Azure OpenAI (Vorschau)

Dynamisches Kontingent ist ein Azure OpenAI-Feature, das eine standardmäßige Bereitstellung (nutzungsbasierte Bezahlung) ermöglicht, um opportunistisch mehr Kontingent zu nutzen, wenn zusätzliche Kapazität verfügbar ist. Wenn das dynamische Kontingent deaktiviert ist, kann Ihre Bereitstellung einen maximalen Durchsatz verarbeiten, der durch die Einstellung „Token pro Minute (TPM)“ festgelegt wird. Wenn Sie Ihre vordefinierte TPM-Einstellung überschreiten, geben Anforderungen HTTP 429-Antworten zurück. Wenn das dynamische Kontingent aktiviert ist, kann die Bereitstellung auf einen höheren Durchsatz zugreifen, bevor 429-Antworten zurückgegeben werden, sodass Sie früher weitere Aufrufe ausführen können. Die zusätzlichen Anforderungen werden weiterhin zum regulären Preis in Rechnung gestellt.

Dynamisches Kontingent kann nur vorübergehend Ihr verfügbares Kontingent erhöhen: Es wird nie den konfigurierten Wert unterschreiten.

Einsatzgebiete von dynamischem Kontingent

Dynamisches Kontingent ist in den meisten Szenarien nützlich, insbesondere, wenn Ihre Anwendung zusätzliche Kapazität opportunistisch verwenden kann oder die Anwendung selbst die Häufigkeit bestimmt, mit der die Azure OpenAI-API aufgerufen wird.

In der Regel ist die Situation, in der Sie dynamisches Kontingent vermeiden möchten, die, in der Ihre Anwendung eine nachteilige Erfahrung bietet, wenn das Kontingent unbeständig oder erhöht ist.

Berücksichtigen Sie für dynamisches Kontingent folgende Szenarien:

  • Massenverarbeitung,
  • Erstellen von Zusammenfassungen oder Einbettungen für Retrieval Augmented Generation (RAG),
  • Offlineanalyse von Protokollen zur Generierung von Metriken und Auswertungen,
  • Untersuchungen mit niedriger Priorität,
  • Apps mit einer geringen Menge an zugeordnetem Kontingent.

Wann wird dynamisches Kontingent angewendet?

Das Azure OpenAI-Back-End entscheidet, ob, wann und wie viel zusätzliches dynamisches Kontingent aus verschiedenen Bereitstellungen hinzugefügt oder entfernt wird. Es wird nicht prognostiziert oder im Voraus angekündigt und ist nicht vorhersagbar. Um das dynamische Kontingent zu nutzen, muss Ihr Anwendungscode in der Lage sein, weitere Anforderungen auszustellen, da HTTP 429-Antworten seltener werden. Azure OpenAI teilt Ihrer Anwendung mit, wenn Sie die Kontingentgrenze erreicht haben, indem eine HTTP 429-Meldung ausgegeben wird und keine weiteren API-Aufrufe durchgelassen werden.

Wie verändern sich die Kosten für dynamisches Kontingent?

  • Aufrufe, die über Ihrem Basiskontingent ausgeführt werden, haben die gleichen Kosten wie normale Aufrufe.

  • Es gibt keine zusätzlichen Kosten beim Aktivieren des dynamischen Kontingents für eine Bereitstellung, obwohl der erhöhte Durchsatz letztendlich zu erhöhten Kosten führen könnte, je nach Umfang des Datenverkehrs, den Ihre Bereitstellung empfängt.

Hinweis

Bei dynamischem Kontingent gibt es keine Aufruferzwingung eines Kontingents oder Durchsatzes mit „Obergrenze“. Azure OpenAI verarbeitet so viele Anforderungen wie möglich, die über Ihrem Basiskontingent liegen. Wenn Sie die Ausgabenrate selbst dann steuern müssen, wenn das Kontingent weniger eingeschränkt ist, muss Ihr Anwendungscode Anforderungen entsprechend zurückhalten.

So verwenden Sie dynamisches Kontingent

Um dynamisches Kontingent zu verwenden, müssen Sie:

  • die Eigenschaft „dynamisches Kontingent“ in Ihrer Azure OpenAI-Bereitstellung aktivieren.
  • sicherstellen, dass Ihre Anwendung dynamisches Kontingent nutzen kann.

Dynamische Daten aktivieren

Um dynamisches Kontingent für Ihre Bereitstellung zu aktivieren, können Sie zu den erweiterten Eigenschaften in der Ressourcenkonfiguration wechseln und es aktivieren:

Screenshot: Erweiterte Konfigurationsbenutzeroberfläche für Bereitstellungen

Alternativ können Sie es programmgesteuert mit dem Befehl az rest der Azure CLI aktivieren:

Ersetzen Sie {subscriptionId}, {resourceGroupName}, {accountName} und {deploymentName} durch die relevanten Werte für Ihre Ressource. In diesem Fall entspricht accountName dem Azure OpenAI-Ressourcennamen.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Woher weiß ich, wie viel Durchsatz dynamisches Kontingent zu meiner App hinzugefügt?

Um die Funktionsweise zu überwachen, können Sie den Durchsatz Ihrer Anwendung in Azure Monitor nachverfolgen. Während der Vorschau des dynamischen Kontingents gibt es keine spezifischen Metriken oder Protokolle, um anzugeben, ob das Kontingent dynamisch erhöht oder verringert wurde. Die Wahrscheinlichkeit, dass dynamisches Kontingent für Ihre Bereitstellung eingesetzt wird, ist geringer, wenn es in stark genutzten Regionen und während der Spitzenzeiten der Verwendung für diese Regionen ausgeführt wird.

Nächste Schritte