Cota dinâmica do OpenAI do Azure (Versão prévia)
A cota dinâmica é um recurso do OpenAI do Azure que permite uma implantação padrão (pago conforme o uso) para aproveitar de mais cota de forma oportunista quando a capacidade extra estiver disponível. Quando a cota dinâmica for definida como desativada, sua implantação poderá processar uma taxa de transferência máxima estabelecida pela configuração de Tokens por Minuto (TPM). Quando você exceder o TPM predefinido, as solicitações retornarão respostas HTTP 429. Quando a cota dinâmica está habilitada, a implantação tem a capacidade de acessar uma taxa de transferência mais alta antes de retornar 429 respostas, permitindo que você execute mais chamadas mais cedo. As solicitações extras ainda são cobradas nas taxas regulares de preços.
A cota dinâmica só pode temporariamente aumentar sua cota disponível: ela nunca diminuirá abaixo do valor configurado.
Quando usar a cota dinâmica
A cota dinâmica é útil na maioria dos cenários, especialmente quando seu aplicativo pode usar capacidade extra de forma oportunista ou o próprio aplicativo está impulsionando a taxa na qual a API do OpenAI do Azure for chamada.
Normalmente, a situação em que você pode preferir evitar a cota dinâmica é quando seu aplicativo oferece uma experiência adversa se a cota for volátil ou aumentada.
Para cota dinâmica, considere cenários como:
- Processamento em massa,
- Criando resumos ou inserções para Geração Aumentada de Recuperação (RAG),
- Análise offline de logs para geração de métricas e avaliações,
- Pesquisa de baixa prioridade,
- Aplicativos que têm uma pequena quantidade de cota alocada.
Quando a cota dinâmica entra em vigor?
O back-end do OpenAI do Azure decide se, quando e quanta cota dinâmica extra é adicionada ou removida de diferentes implantações. Não é previsto ou anunciado com antecedência, e não é previsível. Para aproveitar a cota dinâmica, o código do aplicativo deve ser capaz de emitir mais solicitações à medida que as respostas HTTP 429 se tornam pouco frequentes. O Azure OpenAI informa ao aplicativo quando você atinge o limite de cota respondendo com um HTTP 429 e não permitindo que mais chamadas à API sejam feitas.
Como a cota dinâmica altera os custos?
As chamadas feitas acima da cota base têm os mesmos custos que as chamadas regulares.
Não há custo adicional para ativar a cota dinâmica em uma implantação, embora o aumento da taxa de transferência possa, em última análise, resultar em um custo maior dependendo da quantidade de tráfego que sua implantação recebe.
Observação
Com a cota dinâmica, não há imposição de chamada de uma cota ou taxa de transferência de "teto". O OpenAI do Azure processará o máximo de solicitações que puder acima da cota de linha de base. Se você precisar controlar a taxa de gastos mesmo quando a cota for menos restrita, o código do aplicativo precisará reter as solicitações adequadamente.
Como usar a cota dinâmica
Para usar a cota dinâmica, você deve:
- Ativar a propriedade de cota dinâmica em sua implantação do OpenAI do Azure.
- Verifique se seu aplicativo pode aproveitar a cota dinâmica.
Habilitar cota dinâmica
Para ativar a cota dinâmica para sua implantação, você pode acessar as propriedades avançadas na configuração de recursos e ativá-la:
Como alternativa, você pode habilitá-la programaticamente com az rest
da CLI do Azure:
Substitua {subscriptionId}
, {resourceGroupName}
, {accountName}
e {deploymentName}
pelos valores relevantes do seu recurso. Nesse caso, accountName
é igual ao nome do recurso do OpenAI do Azure.
az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'
Como fazer para saber quanta cota dinâmica de taxa de transferência está sendo adicionada ao meu aplicativo?
Para monitorar como isso está funcionando, você pode acompanhar a taxa de transferência do aplicativo no Azure Monitor. Durante a Versão prévia da cota dinâmica, não há nenhuma métrica ou log específico para indicar se a cota foi aumentada ou reduzida dinamicamente. É menos provável que a cota dinâmica seja ativada para sua implantação se ela for executada em regiões muito utilizadas e durante os horários de pico de uso dessas regiões.
Próximas etapas
- Saiba mais sobre o funcionamento da cota.
- Saiba mais sobre o monitoramento do OpenAI do Azure.