Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
Para obter mais informações sobre alterações recentes na oferta de taxa de transferência provisionada, consulte o artigo de atualização.
A oferta de taxa de transferência provisionada do Azure AI Foundry é um tipo de implantação de modelo que permite especificar a quantidade de taxa de transferência necessária em uma implantação de modelo. Em seguida, o Azure AI Foundry aloca a capacidade de processamento de modelo necessária e garante que ela esteja pronta para você. Você pode usar a taxa de transferência provisionada solicitada em um portfólio diversificado de modelos vendidos diretamente pelo Azure. Esses modelos incluem modelos do Azure OpenAI e famílias de modelos emblemáticos recém-introduzidas, como Azure DeepSeek, Azure Grok, Azure Llama, e muito mais dentro do Azure AI Foundry Models.
A taxa de transferência provisionada fornece:
- Uma escolha mais abrangente de modelos dos modelos emblemáticos mais recentes
- Flexibilidade para alternar modelos e implantações com determinada cota de taxa de transferência provisionada
- Descontos significativos e a capacidade de aumentar a sua utilização de reservas com uma escolha de reserva mais flexível
- Desempenho previsível, fornecendo latência máxima estável e taxa de transferência para cargas de trabalho uniformes.
- Capacidade de processamento alocada: uma implantação configura a quantidade de taxa de transferência. Uma vez implantada, a taxa de transferência fica disponível independentemente de ser usada ou não.
- Economia de custos: cargas de trabalho de alto rendimento podem proporcionar economia de custos versus consumo baseado em token.
Sugestão
- Pode beneficiar de maiores poupanças ao comprar reservas de largura de banda provisionada do Microsoft Azure AI Foundry.
- A largura de banda provisionada está disponível nos seguintes tipos de implantação: provisionado global, zona de dados provisionada e provisionado regional.
Quando utilizar a taxa de transferência provisionada
Você deve considerar a mudança de implantações padrão para implantações de taxa de transferência provisionada quando tiver requisitos de taxa de transferência e latência bem definidos e previsíveis. Normalmente, isso ocorre quando o aplicativo está pronto para produção ou já está implantado em produção e há um entendimento do tráfego esperado. Isso permite que os usuários prevejam com precisão a capacidade necessária e evitem cobranças inesperadas. As implantações de taxa de transferência provisionada também são úteis para aplicativos que têm requisitos sensíveis à latência/tempo real.
Conceitos-chave
As secções a seguir descrevem os principais conceitos que você deve conhecer ao usar a oferta de taxa de transferência provisionada.
Unidades de taxa de transferência provisionadas (PTU)
As unidades de taxa de transferência provisionadas (PTU) são unidades genéricas de capacidade de processamento de modelo que você pode usar para dimensionar implantações provisionadas para atingir a taxa de transferência necessária para processar prompts e gerar conclusão. As unidades de taxa de transferência provisionadas são concedidas a uma assinatura como cota e usadas para definir custos. Cada cota é específica para uma região e define o número máximo de PTU que pode ser atribuído a implantações nessa assinatura e região.
Gestão dos custos no âmbito de reserva partilhada de PTU
Você pode usar a capacidade de PTU para gerir de forma integrada os custos dos Modelos de Fundição sob uma reserva partilhada de PTU. No entanto, as unidades de PTU necessárias para implantação e desempenho de taxa de transferência são dinamicamente adaptadas aos modelos escolhidos. Para saber mais sobre os custos de PTU e os pontos de latência do modelo, consulte Noções básicas sobre os custos associados à PTU.
As reservas de PTU existentes são atualizadas automaticamente para capacitar os clientes com maior eficiência e economia de custos à medida que implantam modelos de fundição. Por exemplo, suponha que você tenha uma reserva de PTU existente com 500 PTU comprados. Você usa 300 unidades para modelos do Azure OpenAI e também opta por usar PTU para implantar o Azure DeepSeek, o Azure Llama ou outros modelos com capacidade de PTU nos modelos Foundry.
Se você usar os 200 PTU restantes para o DeepSeek-R1, os 200 PTU compartilharão o desconto da reserva automaticamente, e seu uso total para a reserva é de 500 PTU.
Se usar 300 PTU para DeepSeek-R1, então 200 PTU beneficiam automaticamente do desconto de reserva, enquanto 100 PTU excedem a reserva e são cobrados à taxa horária do DeepSeek-R1.
Para saber mais sobre como economizar custos com reservas de PTU, consulte Economizar custos com reservas de taxa de transferência provisionada do Microsoft Azure AI Foundry.
Tipos de implementação
Ao criar uma implantação provisionada no Azure AI Foundry, o tipo de implantação na caixa de diálogo "Criar implantação" pode ser definido como Taxa de Transferência Provisionada Global, Taxa de Transferência Provisionada da Zona de Dados, ou Taxa de Transferência Provisionada Regional, dependendo das necessidades de processamento de dados da carga de trabalho em questão.
Quando você está criando uma implantação provisionada no Azure AI Foundry via CLI ou API, a sku-name
pode ser definida como GlobalProvisionedManaged
, DataZoneProvisionedManaged
ou ProvisionedManaged
dependendo da necessidade de processamento de dados para a carga de trabalho fornecida.
Tipo de implantação | sku-name na CLI |
---|---|
Largura de banda provisionada global | GlobalProvisionedManaged |
Taxa de transferência provisionada da zona de dados | DataZoneProvisionedManaged |
Capacidade de processamento provisionada regional | Gerenciado Provisionado |
Para adaptar o seguinte comando de exemplo da CLI do Azure a um tipo de implantação diferente, atualize o sku-name
parâmetro para corresponder ao tipo de implantação que você deseja implantar.
az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06 \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged
Transparência da capacidade
Os modelos vendidos diretamente pelo Azure são serviços muito procurados em que a demanda do cliente pode exceder a capacidade da GPU de serviço. A Microsoft se esforça para fornecer capacidade para todas as regiões e modelos sob demanda, mas vender uma região é sempre uma possibilidade. Essa restrição pode limitar a capacidade de alguns clientes de criar uma implantação do modelo, versão ou número de PTU desejados em uma região desejada - mesmo que eles tenham cota disponível nessa região. De um modo geral:
- A cota limita o número máximo de PTU que podem ser implementados numa subscrição e na região e não garante a disponibilidade de capacidade.
- A capacidade é alocada no momento da implantação e é mantida enquanto a implantação existir. Se a capacidade de serviço não estiver disponível, a implantação falhará.
- Os clientes usam informações em tempo real sobre a disponibilidade de cota/capacidade para escolher uma região apropriada para seu cenário com a capacidade de modelo necessária.
- Reduzir ou excluir uma implantação libera a capacidade de volta para a região. Não há garantia de que a capacidade estará disponível caso a implantação seja ampliada ou recriada posteriormente.
Orientação da capacidade regional
Para encontrar a capacidade necessária para suas implantações, use a API de capacidade ou a experiência de implantação do Azure AI Foundry para fornecer informações em tempo real sobre a disponibilidade de capacidade.
No Azure AI Foundry, a experiência de implantação identifica quando uma região não tem a capacidade necessária para implantar o modelo. Isso analisa o modelo, a versão e o número desejados de PTU. Se a capacidade não estiver disponível, a experiência direcionará os usuários a selecionar uma região alternativa.
Detalhes sobre a experiência de implantação podem ser encontrados no guia de introdução do Azure AI Foundry Provisioned.
A API de capacidades do modelo pode ser usada para identificar programaticamente a implantação de tamanho máximo de um modelo especificado. A API considera sua cota e capacidade de serviço na região.
Se uma região aceitável não estiver disponível para suportar o modelo, a versão e/ou a PTU desejados, os clientes também podem tentar as seguintes etapas:
- Tente a implantação com um número menor de PTU.
- Tente a implantação em um momento diferente. A disponibilidade da capacidade muda dinamicamente com base na demanda do cliente e mais capacidade pode ficar disponível mais tarde.
- Garantir que a quota está disponível em todas as regiões aceitáveis. A API de capacidades do modelo e a experiência do Azure AI Foundry consideram a disponibilidade de cota no retorno de regiões alternativas para a criação de uma implantação.
Como posso monitorizar a capacidade?
A métrica Utilização Gerenciada Provisionada V2 no Azure Monitor mede uma determinada utilização de implantações em incrementos de 1 minuto. Todos os tipos de implantação provisionados são otimizados para garantir que as chamadas aceitas sejam processadas com um tempo de processamento de modelo consistente (a latência real de ponta a ponta depende das características de uma chamada).
Como funciona o desempenho de utilização
As implantações provisionadas fornecem uma quantidade alocada de capacidade de processamento de modelo para executar um determinado modelo.
Em todos os tipos de implantação provisionada, quando a capacidade é excedida, a API retorna um erro de status HTTP 429. A resposta rápida permite que o usuário tome decisões sobre como gerenciar seu tráfego. Os usuários podem redirecionar solicitações para uma implantação separada, para uma instância de implantação padrão ou usar uma estratégia de repetição para gerenciar uma determinada solicitação. O serviço continua a retornar o código de status HTTP 429 até que a utilização caia abaixo de 100%.
O que devo fazer quando receber uma resposta 429?
A resposta 429 não é um erro, mas, em vez disso, faz parte do design para dizer aos usuários que uma determinada implantação é totalmente utilizada em um determinado momento. Ao fornecer uma resposta de falha rápida, você tem controle sobre como lidar com essas situações da maneira que melhor se adapta aos requisitos do seu aplicativo.
Os retry-after-ms
cabeçalhos e retry-after
na resposta informam o tempo de espera antes que a próxima chamada seja aceita. A forma como você escolhe lidar com essa resposta depende dos requisitos do seu aplicativo. Aqui estão algumas considerações:
- Você pode considerar o redirecionamento do tráfego para outros modelos, implantações ou experiências. Esta opção é a solução de menor latência porque a ação pode ser tomada assim que você receber o sinal 429. Para obter ideias sobre como implementar esse padrão de forma eficaz, consulte esta postagem da comunidade.
- Se você estiver de acordo com latências mais longas por chamada, implemente a lógica de repetição do lado do cliente. Essa opção oferece a maior quantidade de taxa de transferência por PTU. As bibliotecas de cliente do Azure AI Foundry incluem capacidades internas para lidar com reexecuções.
Como o serviço decide quando enviar um 429?
Em todos os tipos de implantação provisionada, cada solicitação é avaliada individualmente de acordo com seu tamanho de prompt, tamanho de geração esperado e modelo, para determinar sua utilização esperada. Esse comportamento contrasta com as implantações padrão, que têm um comportamento de limitação de taxa personalizada com base na carga de tráfego estimada. Para implantações padrão, esse comportamento de limitação de taxa personalizada pode levar à geração de erros HTTP 429 antes que os valores de cota definidos sejam excedidos se o tráfego não for distribuído uniformemente.
Para implantações provisionadas, usamos uma variação do algoritmo de bucket com vazamento para manter a utilização abaixo de 100% e, ao mesmo tempo, permitir alguma interrupção no tráfego. A lógica de alto nível é a seguinte:
Cada cliente tem uma quantidade definida de capacidade que pode utilizar em uma implantação
Quando é feito um pedido:
a) Quando a utilização atual está acima de 100%, o serviço retorna um código 429 com o
retry-after-ms
cabeçalho definido para o tempo até que a utilização esteja abaixo de 100%b) Caso contrário, o serviço estima a alteração incremental na utilização necessária para atender à solicitação combinando os tokens de prompt, menos os tokens armazenados em cache e os especificados
max_tokens
na chamada. Um cliente pode receber até 100% de desconto em seus tokens de prompt, dependendo do tamanho de seus tokens armazenados em cache. Se omax_tokens
parâmetro não for especificado, o serviço estima um valor. Essa estimativa pode levar a uma simultaneidade menor do que o esperado quando o número de tokens gerados real é pequeno. Para maior simultaneidade, certifique-se de que o valor esteja omax_tokens
mais próximo possível do tamanho real da geração.Quando uma solicitação termina, agora sabemos o custo real de cálculo para a chamada. Para garantir uma contabilidade precisa, corrigimos a utilização usando a seguinte lógica:
a) Se a estimativa real > , a diferença é adicionada à utilização da implantação.
b) Se o real < estimado, então a diferença é subtraída.
A utilização global é diminuída a uma taxa contínua com base no número de PTU implantadas.
Observação
As chamadas são aceites até que a utilização atinja os 100%. Rajadas de pouco mais de 100% podem ser permitidas em períodos curtos, mas com o tempo, a utilização do seu tráfego é limitada a 100%.
Quantas chamadas simultâneas posso ter na minha implantação?
O número de chamadas simultâneas que você pode realizar depende da forma de cada chamada (tamanho do prompt, max_tokens
parâmetro, etc.). O serviço continua a aceitar chamadas até que a utilização atinja os 100%. Para determinar o número aproximado de chamadas simultâneas, você pode modelar o máximo de solicitações por minuto para uma determinada forma de chamada na calculadora de capacidade. Se o sistema gerar menos do que o número de tokens de saída definidos para o max_tokens
parâmetro, a implantação provisionada aceitará mais solicitações.
Capacidade de taxa de transferência provisionada para modelos vendidos diretamente pelo Azure
Esta seção lista os Modelos de Fundição que oferecem suporte à capacidade de taxa de transferência provisionada. Você pode usar sua cota de PTU e reserva de PTU nos modelos mostrados na tabela.
Os seguintes pontos são algumas conclusões importantes da tabela:
A versão do modelo não está incluída nesta tabela. Verifique a versão suportada para cada modelo quando escolher a opção de implantação no portal do Azure AI Foundry.
A opção regional de implantação de taxa de transferência provisionada varia conforme a região.
Os novos modelos vendidos diretamente pelo Azure são integrados primeiro com a opção de implantação de taxa de transferência provisionada global. A opção Zona de dados provisionada vem mais tarde.
As PTU são administradas regionalmente e de acordo com o tipo de oferta. A cota PTU e quaisquer reservas devem estar na região e formato (Global, Data zone, Regional) que você deseja usar.
O Spillover é um recurso opcional que gerencia flutuações de tráfego em implantações provisionadas. Para obter mais informações sobre transbordamento, consulte Gerir o tráfego com transbordamento para implementações provisionadas (Pré-visualização).
Família Modelo | Nome do modelo | Provisionado globalmente | Zona de dados provisionada | Provisionamento regional | Efeito de transbordo |
---|---|---|---|---|---|
Azure OpenAI | Gpt4,1 | ✅ | ✅ | ✅ | ✅ |
Gpt 4.1 mini | ✅ | ✅ | ✅ | ✅ | |
Gpt 4,1 nano | ✅ | ✅ | ✅ | ✅ | |
Gpt 4o | ✅ | ✅ | ✅ | ✅ | |
Gpt 4o mini | | ✅ | ✅ | ✅ | ✅ | |
Gpt 3.5 Turbo | ✅ | ✅ | ✅ | ✅ | |
o1 | ✅ | ✅ | ✅ | ✅ | |
O3 mini | ✅ | ✅ | ✅ | ✅ | |
O4 Mini | ✅ | ✅ | ✅ | ✅ | |
Azure DeepSeek | DeepSeek-R1 | ✅ | |||
DeepSeek-V3-0324 | ✅ | ||||
DeepSeek-R1-0528 | ✅ |
Disponibilidade regional para capacidade de throughput configurada
- Taxa de transferência provisionada global
- Taxa de transferência provisionada da zona de dados
- Capacidade de processamento provisionada regional
Disponibilidade global do modelo de capacidade provisionada
Região |
o3 2025-04-16 |
o4-mini 2025-04-16 |
GPT-4,1 2025-04-14 |
GPT-4.1-nano 2025-04-14 |
GPT-4.1-mini 2025-04-14 |
O3-Mini 31-01-2025 |
o1 17-12-2024 |
GPT-4O 13 de maio de 2024 |
GPT-4O 2024-08-06 |
GPT-4O 2024-11-20 |
GPT-4O-Mini 18-07-2024 |
DeepSeek-R1 | DeepSeek-V3-0324 | DeepSeek-R1-0528 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
leste da Austrália | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Brasil Sul | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Canadá Leste | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Eastus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
FranceCentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Alemanha Oeste Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
ItáliaNorte | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
JapãoLeste | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Coreia Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Centro-Norte | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Noruega Oriental | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Polónia Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
southafricanorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Centro-Sul | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Sudeste Asiático | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Sul da Índia | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
EspanhaCentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
suécia central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
suíçanorte | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Suíça Oeste | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
UAENORTH | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
UKSOUTH | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Europa Ocidental | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Westus | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Westus3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Observação
A versão provisionada de gpt-4
Version:turbo-2024-04-09
está atualmente limitada apenas ao texto.