Compartilhar via


Compreender os custos associados às unidades de taxa de transferência provisionadas (PTU)

Use este artigo para saber mais sobre como calcular e entender os custos associados à PTU. Para obter uma visão geral da oferta de taxa de transferência provisionada, consulte O que é taxa de transferência provisionada?. Quando estiver pronto para começar com a oferta de capacidade provisionada, consulte o guia de introdução.

Observação

Em chamadas de função e casos de uso de agente, o uso do token pode ser variável. Você deve compreender em detalhe o seu uso esperado de Tokens por Minuto (TPM) antes de migrar as tarefas para PTU.

Unidades de taxa de transferência provisionadas

As unidades de taxa de transferência provisionadas (PTUs) são unidades genéricas de capacidade de processamento de modelo que pode-se utilizar para dimensionar as implantações provisionadas, alcançando a taxa de transferência necessária para processar prompts e gerar completações. As unidades de taxa de transferência provisionadas são concedidas a uma assinatura como cota. Cada cota é específica para uma região e define o número máximo de PTUs que podem ser atribuídas a implantações nessa assinatura e região.

Noções básicas sobre faturamento de taxa de transferência provisionada

A Taxa de Transferência Provisionada Regional do Azure AI Foundry, a Taxa de Transferência Provisionada da Zona de Dados e a Taxa de Transferência Global Provisionada são adquiridas sob demanda em uma base horária com base no número de PTUs implantadas, com desconto de prazo substancial disponível por meio da compra de Reservas do Azure.

O modelo por hora é útil para necessidades de implantação de curto prazo, como validar novos modelos ou adquirir capacidade para um hackathon.  No entanto, os descontos fornecidos pela Reserva do Azure para Azure AI Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned são consideráveis e a maioria dos clientes com uso consistente a longo prazo encontrará um modelo reservado como uma proposta de valor melhor.

Observação

Os clientes provisionados do Azure AI Foundry integrados antes da atualização de autoatendimento de agosto usam um modelo de compra chamado modelo de compromisso. Estes clientes podem continuar a utilizar este modelo de compra mais antigo juntamente com o modelo de compra por hora/reserva. O modelo de Compromisso não está disponível para novos clientes ou alguns novos modelos introduzidos após agosto de 2024. Para obter detalhes sobre o modelo de compra de compromisso e as opções de coexistência e migração, consulte a Atualização de agosto provisionada do Azure AI Foundry.

Modelo de quota independente

Ao contrário da cota de Tokens por Minuto (TPM) usada por outras ofertas do Azure AI Foundry, as PTUs são independentes do modelo. As PTUs podem ser usadas para implantar quaisquer modelos suportados hospedados e vendidos diretamente pela Microsoft na região.

Diagrama de cota independente de modelo com um pool de PTUs disponíveis para vários modelos do Azure OpenAI.

A cota para implantações provisionadas aparece no Azure AI Foundry como os seguintes tipos de implantação: provisionado global, zona de dados provisionada e provisionada regional.

Tipo de implantação Nome da cota
Provisionado Regional Unidade de Taxa de Transferência Provisionada Regional
Globalmente Provisionado Unidade Global de Largura de Banda Provisionada
Zona de dados provisionada Unidade de Taxa de Transferência Provisionada de Zona de Dados

Captura de ecrã da interface de utilizador de quotas para o Azure AI Foundry provisionado.

Utilização por hora

As implantações Provisionadas Regionalmente, Provisionadas por Zona de Dados e Provisionadas Globalmente são cobradas uma taxa por hora ($/PTU/h) baseada no número de PTUs implantados.  Por exemplo, uma implantação de 300 PTU será cobrada à taxa horária multiplicada por 300.  Todos os preços do modelo do Azure AI Foundry estão disponíveis na Calculadora de Preços do Azure.

Se uma implantação existir por uma hora parcial, ela receberá uma cobrança proporcional com base no número de minutos em que foi implantada durante a hora.  Por exemplo, uma implantação que existe por 15 minutos durante uma hora será cobrada 1/4 da tarifa horária. 

Se o tamanho da implantação for alterado, os custos da implantação serão ajustados para corresponder ao novo número de PTUs.

Um diagrama mostrando o faturamento por hora.

Pagar por implantações provisionadas regionais, de zona de dados e globais por hora é ideal para cenários de implantação de curto prazo.  Por exemplo: avaliação comparativa de desempenho e qualidade de novos modelos ou aumento temporário da capacidade da PTU para cobrir um evento como um hackathon. 

No entanto, clientes que exigem uso a longo prazo de implantações provisionadas regionalmente, por zona de dados e globalmente podem pagar significativamente menos por mês comprando um desconto de prazo nas Reservas do Azure, conforme discutido mais adiante no artigo.

Importante

Não é recomendado escalar implantações de produção de acordo com o tráfego de entrada e pagá-las puramente por hora. Há duas razões para isso:

  • As economias de custos obtidas com a compra de Reservas do Azure para a Capacidade de Transferência Provisionada do Azure AI Foundry, a Zona de Dados Provisionada e a Provisionada Global são significativas, e, em muitos casos, será menos dispendioso manter uma implantação dimensionada para o volume total de produção, paga por meio de uma reserva, do que dimensionar a implantação com o tráfego de entrada.
  • Ter cotas provisionadas (PTUs) não utilizadas não garante que a capacidade estará disponível para suportar um aumento no tamanho da implantação quando necessário. A cota limita o número máximo de PTUs que podem ser implantadas, mas não é uma garantia de capacidade. A capacidade provisionada para cada região e modelo muda dinamicamente ao longo do dia e pode não estar disponível quando necessário. Como resultado, recomenda-se manter uma implantação permanente para cobrir suas necessidades de tráfego (pago por meio de uma reserva). As cobranças por implantações em um recurso excluído continuarão até que o recurso seja limpo. Para evitar isso, exclua a implantação de um recurso antes de excluí-lo. Para obter mais informações, consulte Recuperar ou limpar recursos excluídos do Azure OpenAI.

Quanta taxa de transferência por PTU você obtém para cada modelo

A quantidade de taxa de transferência (medida em tokens por minuto ou TPM) que uma implantação obtém por PTU é uma função dos tokens de entrada e saída em um determinado minuto. A geração de tokens de saída requer mais processamento do que tokens de entrada.  Começando com os modelos GPT 4.1 e acima, o sistema alinha-se com a relação de preço padrão global entre tokens de entrada e saída. Os tokens armazenados em cache são deduzidos 100% da utilização.

Por exemplo, para gpt-4.1:2025-04-14, 1 token de saída conta como 4 tokens de entrada em relação ao seu limite de utilização, que corresponde ao preço. Os modelos mais antigos usam uma proporção diferente e, para uma compreensão mais profunda de como diferentes proporções de tokens de entrada e saída afetam a taxa de transferência de que sua carga de trabalho precisa, consulte a calculadora de cota de PTU do Azure AI Foundry.

Tópico o4-mini GPT-4,1 GPT-4.1-mini GPT-4.1-nano o3 O3-Mini o1 GPT-4O GPT-4O-Mini DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-R1-0528
Implantação mínima provisionada da zona de dados Global & 15 15 15 15 15 15 15 15 15 100 100 100
Incremento de escala provisionada da zona de dados global & 5 5 5 5 5 5 5 5 5 100 100 100
Implantação mínima provisionada regional 25 50 25 25 50 25 25 50 25 NA NA NA
Incremento de escala provisionada regional 25 50 25 25 50 25 50 50 25 NA NA NA
TPM de entrada por PTU 5,400 3,000 14,900 59.400 3,000 2,500 230 2,500 37,000 4,000 4,000 4,000
Valor de destino de latência 99% > 66 tokens por segundo* 99% > 40 tokens por segundo* 99% > 50 tokens por segundo* 99% > 60 tokens por segundo* 99% > 40 tokens por segundo* 99% > 66 tokens por segundo* 99% > 25 tokens por segundo* 99% > 25 tokens por segundo* 99% > 33 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo*

* Calculado como a latência média de solicitação por minuto ao longo do mês.

Para obter uma lista completa, consulte a calculadora do Azure AI Foundry.

Determinar o número de PTUs necessárias para uma carga de trabalho

Determinar a quantidade certa de taxa de transferência provisionada, ou PTUs, necessária para sua carga de trabalho é uma etapa essencial para otimizar o desempenho e o custo.

As PTUs representam uma quantidade de capacidade de processamento de modelos. Semelhante ao seu computador ou bancos de dados, diferentes cargas de trabalho ou solicitações para o modelo consumirão diferentes quantidades de capacidade de processamento subjacente. A conversão das necessidades de taxa de transferência para PTUs pode ser aproximada usando dados históricos de uso de token ou estimativas de forma de chamada (tokens de entrada, tokens de saída e solicitações por minuto), conforme descrito em nossa documentação de desempenho e latência . Para simplificar esse processo, você pode usar a calculadora de cota de PTU do Azure AI Foundry para dimensionar formas de carga de trabalho específicas.

Algumas considerações de alto nível:

  • As gerações exigem mais capacidade do que os prompts
  • Para GPT-4o e modelos posteriores, o TPM por PTU é definido para tokens de entrada e saída separadamente. Para modelos mais antigos, chamadas maiores são progressivamente mais caras para calcular. Por exemplo, 100 chamadas de com um tamanho de prompt de token 1000 requer menos capacidade do que uma chamada com 100.000 tokens no prompt. Essa hierarquização significa que a distribuição dessas formas de chamada é importante na taxa de transferência geral. Padrões de tráfego com uma ampla distribuição que inclui algumas chamadas grandes podem ter uma taxa de transferência mais baixa por PTU do que uma distribuição mais restrita com os mesmos tamanhos médios de token de solicitação e conclusão.

Obtenção de quota PTU

Os clientes precisam solicitar cota por meio do link Solicitar cota. Se forem necessárias mais cotas, você também precisa solicitar a cota através deste link. Esta ligação pode ser encontrada na central de quotas no centro de gestão do Azure AI Foundry. O formulário permite que o cliente solicite um aumento na cota de PTU especificada para uma determinada região. O cliente recebe um e-mail no endereço incluído assim que o pedido é aprovado, normalmente no prazo de dois dias úteis.

Per-Model Mínimos de PTU

A implantação, os incrementos e a capacidade de processamento mínimos de PTU associados a cada unidade variam de acordo com o tipo de modelo e a versão. Consulte a tabela acima para obter mais informações.

Estimativa de custo e de unidades de taxa de transferência provisionadas

Para obter uma estimativa rápida para sua carga de trabalho usando TPM de entrada e saída, aproveite o planejador de capacidade interno na seção de detalhes de implantação da tela de diálogo de implantação. O planejador de capacidade interno faz parte do fluxo de trabalho de implantação para ajudar a simplificar o dimensionamento e a alocação de cota para uma implantação de PTU para uma determinada carga de trabalho. Para obter mais informações sobre como identificar e estimar dados TPM, consulte as recomendações em nossa documentação de desempenho e latência.

Para usar o planejador de capacidade, vá para o Portal do Azure AI Foundry e selecione o botão Implantações . Em seguida, selecione Implantar modelo.

Uma captura de tela da tela de implantação do modelo.

Escolha um modelo e clique em Confirmar. Selecione um tipo de implementação de provisionamento de largura de banda. Depois de preencher os dados TPM de entrada e saída na calculadora de capacidade integrada, selecione o botão Calcular para visualizar sua recomendação de alocação de PTU.

Uma captura de tela do fluxo de trabalho de implantação da calculadora de capacidade de PTU.

Para estimar a capacidade provisionada usando dados de nível de solicitação, abra o planejador de capacidade no Azure AI Foundry. A calculadora de capacidade está no Centro de Gestão>Quota>Taxa de Transferência Provisionada.

A opção Taxa de transferência provisionada e a calculadora só estão disponíveis em determinadas regiões no painel Cotas, se não vires esta opção, definir a região de cota como Suécia Central disponibilizará essa opção. Insira os seguintes parâmetros com base na sua carga de trabalho.

Entrada Descrição
Modelo modelo que você planeja usar. Por exemplo: GPT-4
Versão Versão do modelo que pretende utilizar, por exemplo 0614
Pico de chamadas por minuto O número de chamadas por minuto que se espera que sejam enviadas para o modelo
Tokens em chamada imediata O número de tokens no prompt em cada chamada ao modelo. Chamadas com prompts maiores utilizam mais da PTU. Atualmente, esta calculadora assume um único valor de prompt para cargas de trabalho com grande variância. Recomendamos comparar sua implantação com seu tráfego para determinar a estimativa mais precisa de PTU necessária para sua implantação.
Tokens na resposta do modelo O número de tokens gerados em cada chamada ao modelo. Chamadas com tamanhos de geração maiores utilizam mais da implantação de PTU. Atualmente, esta calculadora assume um único valor de prompt para cargas de trabalho com grande variância. Recomendamos comparar sua implantação com seu tráfego para determinar a estimativa mais precisa de PTU necessária para sua implantação.

Depois de preencher os detalhes necessários, selecione o botão Calcular na coluna de saída.

Os valores na coluna de saída são o valor estimado das unidades de PTU necessárias para as entradas de carga de trabalho fornecidas. O primeiro valor de saída representa as unidades de PTU estimadas necessárias para a carga de trabalho, arredondadas para o incremento de escala de PTU mais próximo. O segundo valor de saída representa as unidades de PTU brutas estimadas necessárias para a carga de trabalho. Os totais de token são calculados usando a seguinte equação: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Captura de ecrã da calculadora de capacidade

Observação

As calculadoras de capacidade fornecem uma estimativa com base em critérios de entrada simples. A maneira mais precisa de determinar sua capacidade é comparar uma implantação com uma carga de trabalho representacional para seu caso de uso.

Reservas do Azure para Largura de Banda Provisionada do Azure AI Foundry

Descontos além do preço de uso por hora podem ser obtidos comprando uma Reserva do Azure para o Azure AI Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned. Uma Reserva do Azure é um mecanismo de desconto de prazo compartilhado por muitos produtos do Azure. Por exemplo, Compute e Cosmos DB. Para o Azure AI Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned, a subscrição oferece um desconto em troca de um compromisso de pagamento por um número fixo de PTUs, durante um período de um mês ou um ano. 

  • As Reservas do Azure são compradas por meio do portal do Azure, não do portal do Azure AI Foundry Link para o portal de reservas do Azure.

  • As reservas são compradas regionalmente e podem ter um escopo flexível para cobrir o uso de um grupo de implantações. Os escopos de reserva incluem:

    • Grupos de recursos individuais ou subscrições

    • Um grupo de assinaturas num Grupo de Gestão

    • Todas as subscrições numa conta de faturação

  • Novas reservas podem ser adquiridas para cobrir o mesmo escopo das reservas existentes, para permitir o desconto de novas implantações provisionadas. O âmbito das reservas existentes também pode ser atualizado a qualquer momento sem penalizações, por exemplo, para cobrir uma nova subscrição.

  • As reservas para implantações globais, de zona de dados e regionais não são intercambiáveis. Você precisa comprar uma reserva separada para cada tipo de implantação.

  • As reservas podem ser canceladas após a compra, mas os créditos são limitados.

  • Se o tamanho das implantações provisionadas no escopo de uma reserva exceder o valor da reserva, o excesso será cobrado na taxa horária. Por exemplo, se existirem implantações no valor de 250 PTUs no âmbito de uma reserva de 200 PTU, 50 PTUs serão cobradas por hora até que os tamanhos de implantação sejam reduzidos para 200 PTUs ou uma nova reserva seja criada para cobrir as 50 restantes.

  • As reservas garantem um preço com desconto para o prazo selecionado.  Eles não reservam capacidade no serviço nem garantem que ele estará disponível quando uma implantação é criada. É altamente recomendável que os clientes criem implantações antes de comprar uma reserva para evitar a compra excessiva de uma reserva.

Importante

  • A disponibilidade de capacidade para implantações de modelos é dinâmica e muda frequentemente entre regiões e modelos. Para evitar que compres uma reserva para mais PTUs do que consegues usar, cria implementações primeiro e, em seguida, compra a Reserva do Azure para cobrir os PTUs que implementaste. Esta prática recomendada garantirá que você possa aproveitar ao máximo o desconto da reserva e evitar que você adquira um compromisso de prazo que você não pode usar.

  • Os requisitos de funções e política de locatário do Azure para a compra de uma reserva são diferentes daqueles necessários para criar uma implantação ou um recurso do Azure AI Foundry. Verifique a autorização para comprar reservas antes de precisar fazê-lo. Consulte Reserva de taxa de transferência provisionada do Azure AI Foundry para obter mais detalhes.

Importante: dimensionamento de reserva de throughput provisionada do Azure AI Foundry

Os montantes de PTU nas compras de reserva são independentes dos PTU já atribuídos em quotas ou utilizados em implantações. É possível comprar uma reserva para mais PTUs do que você tem na cota, ou pode implantar para a região, modelo ou versão desejada. Os créditos por excesso de compra de uma reserva são limitados, e os clientes devem tomar medidas para garantir que mantêm os seus tamanhos de reserva de acordo com as suas PTUs implementadas.

A prática recomendada é sempre comprar uma reserva após as implantações terem sido criadas. Isso impede a compra de uma reserva e, em seguida, descobrir que a capacidade necessária não está disponível para a região ou modelo desejado.

As reservas para implantações globais, de zona de dados e regionais não são intercambiáveis. Você precisa comprar uma reserva separada para cada tipo de implantação.

Para ajudar os clientes a comprar os valores corretos de reserva. O número total de PTUs numa subscrição e região que pode ser coberto por uma reserva é listado na página de Cotas do Azure AI Foundry. Consulte a mensagem "PTUs disponíveis para reserva".

Uma captura de tela mostrando a cota de PTU disponível.

Gerir Reservas do Azure

Depois que uma reserva é criada, é uma prática recomendada monitorá-la para garantir que ela esteja recebendo o uso esperado. Isso pode ser feito por meio do Portal de Reservas do Azure ou do Azure Monitor. Detalhes sobre estes artigos e outros podem ser encontrados aqui:

Próximos passos