Sdílet prostřednictvím


Dynamická kvóta Azure OpenAI (Preview)

Dynamická kvóta je funkce Azure OpenAI, která umožňuje standardní (průběžné) nasazení, které umožňuje oportunisticky využít větší kvótu, pokud je k dispozici dodatečná kapacita. Když je nastavená dynamická kvóta, vaše nasazení bude moct zpracovat maximální propustnost zřízenou nastavením tokenů za minutu (TPM). Když překročíte přednastavený čip TPM, požadavky vrátí odpovědi HTTP 429. Pokud je povolená dynamická kvóta, má nasazení možnost získat přístup k vyšší propustnosti před vrácením odpovědí 429, což vám umožní provádět více volání dříve. Další žádosti se stále účtují podle pravidelných cenových sazeb.

Dynamická kvóta může pouze dočasně zvýšit dostupnou kvótu: nikdy se nezmenší pod nakonfigurovanou hodnotu.

Kdy použít dynamickou kvótu

Dynamická kvóta je užitečná ve většině scénářů, zejména v případě, že vaše aplikace může použít nadbytečnou kapacitu oportunisticky nebo samotná aplikace řídí rychlost, s jakou se volá rozhraní API Azure OpenAI.

Obvykle situace, ve které byste se mohli raději vyhnout dynamické kvótě, je situace, kdy by vaše aplikace poskytovala nepříznivý zážitek, pokud je kvóta nestálá nebo zvýšená.

Pro dynamickou kvótu zvažte scénáře, jako jsou:

  • Hromadné zpracování,
  • Vytváření souhrnů nebo vkládání pro načítání rozšířené generace (RAG),
  • Offline analýza protokolů pro generování metrik a hodnocení,
  • Výzkum s nízkou prioritou,
  • Aplikace, které mají přidělenou malou kvótu

Kdy se dynamická kvóta projeví?

Back-end Azure OpenAI rozhoduje, kdy a kolik dalších dynamických kvót se přidá nebo odebere z různých nasazení. Není předem předpověděna ani oznamována a není předvídatelná. Pokud chcete využít výhod dynamické kvóty, kód aplikace musí mít možnost vydávat více požadavků, protože odpovědi HTTP 429 se stávají zřídkajší. Azure OpenAI umožňuje vaší aplikaci zjistit, kdy dosáhnete limitu kvóty tím, že odpovíte http 429 a nedovolíte více volání rozhraní API.

Jak se mění náklady na dynamickou kvótu?

  • Volání, která se provádějí nad základní kvótou, mají stejné náklady jako běžná volání.

  • Za zapnutí dynamické kvóty pro nasazení nejsou žádné další náklady, ale zvýšená propustnost může vést ke zvýšení nákladů v závislosti na množství provozu, který vaše nasazení obdrží.

Poznámka:

U dynamické kvóty neexistuje vynucení volání kvóty nebo propustnosti stropu. Azure OpenAI zpracuje tolik požadavků, kolik může nad kvótou směrného plánu. Pokud potřebujete řídit míru útraty i v případě, že je kvóta méně omezená, musí kód aplikace odpovídajícím způsobem uchovávat požadavky.

Jak používat dynamickou kvótu

Pokud chcete použít dynamickou kvótu, musíte:

  • Zapněte vlastnost dynamické kvóty v nasazení Azure OpenAI.
  • Ujistěte se, že vaše aplikace může využívat výhod dynamické kvóty.

Povolení dynamické kvóty

Pokud chcete aktivovat dynamickou kvótu pro vaše nasazení, můžete přejít na pokročilé vlastnosti v konfiguraci prostředků a zapnout ho:

Snímek obrazovky s pokročilým konfiguračním uživatelským rozhraním pro nasazení

Alternativně ji můžete povolit programově pomocí Azure CLI az rest:

{subscriptionId}Nahraďte hodnotu , {accountName}{resourceGroupName}a {deploymentName} odpovídajícími hodnotami pro váš prostředek. V tomto případě accountName se rovná názvu prostředku Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Návody vědět, kolik dynamické kvóty propustnosti se přidává do aplikace?

Pokud chcete sledovat, jak funguje, můžete sledovat propustnost aplikace ve službě Azure Monitor. Během verze Preview dynamické kvóty neexistuje žádná konkrétní metrika nebo protokol, které by značily, jestli došlo k dynamickému zvýšení nebo snížení kvóty. Dynamická kvóta je pro vaše nasazení méně pravděpodobná, pokud běží v silně využívaných oblastech a během špičky využití pro tyto oblasti.

Další kroky