Compartilhar via


Integração de unidades de produtividade provisionadas

Este artigo orienta você pelo processo de integração de PTU (unidades de produtividade provisionadas). Depois de concluir a integração inicial, é recomendável consultar o Guia de introdução às PTUs.

Observação

As Unidades de Produtividade Provisionadas (PTU) são diferentes da cota padrão no OpenAI do Azure e não estão disponíveis por padrão. Para saber mais sobre essa oferta, entre em contato com a Equipe de Conta da Microsoft.

Quando usar unidades de produtividade provisionadas (PTU)

Você deve considerar mudar do pagamento conforme o uso para as unidades de produtividade quando tiver requisitos de taxa de transferência bem definidos e previsíveis. Normalmente, isso ocorre quando o aplicativo está pronto para produção ou já foi implantado em produção e há uma compreensão do tráfego esperado. Isso permitirá que os usuários prevejam com precisão a capacidade necessária e evitem cobranças inesperadas.

Cenários típicos de PTU

  • Um aplicativo pronto para produção ou em produção.
  • O aplicativo tem expectativas previsíveis de capacidade/uso.
  • O aplicativo tem requisitos confidenciais de latência/tempo real.

Observação

Em casos de uso de agente e chamada de função, o uso de token pode ser variável. Você deve entender o uso esperado de Tokens por Minuto (TPM) em detalhes antes de migrar as cargas de trabalho para o PTU.

Dimensionamento e estimativa: provisionado somente gerenciado

Determinar a quantidade certa de taxa de transferência provisionada, ou PTUs, necessária para sua carga de trabalho é uma etapa essencial para otimizar o desempenho e o custo. Esta seção descreve como usar a ferramenta de planejamento de capacidade OpenAI do Azure. A ferramenta fornece uma estimativa de PTU necessárias para atender às necessidades da carga de trabalho.

Estimar taxa de transferência provisionada e custos

Para obter uma estimativa rápida da carga de trabalho, abra o planejador de capacidade no Estúdio do OpenAI do Azure. O planejador de capacidade está em Gerenciamento>Cotas>Provisionado.

A opção Provisionado e o planejador de capacidade só estão disponíveis em determinadas regiões no painel Cota, se essa opção não for exibida ela será disponibilizada ao definir a região de cota para Suécia Central. Insira os seguintes parâmetros baseados na sua carga de trabalho.

Entrada Descrição
Modelar Modelo do OpenAI que você planeja usar. Por exemplo: GPT-4
Versão Versão do modelo que você planeja usar, por exemplo, 0614
Tokens de prompt Número de tokens no prompt para cada chamada
Geração de tokens Número de tokens gerados pelo modelo em cada chamada
Pico de chamadas por minuto Pico de carga simultânea do ponto de extremidade medido em chamadas por minuto

Após preencher os detalhes necessários, selecione Calcular, para exibir a PTU sugerida para seu cenário.

Captura de tela da página de aterrissagem do Azure OpenAI Studio.

Observação

O planejador de capacidade é uma estimativa baseada em critérios de entrada simples. A maneira mais precisa de determinar sua capacidade é comparar uma implantação com uma carga de trabalho representativa para seu caso de uso.

Noções básicas sobre o modelo de aquisição de taxa de transferência provisionada

Ao contrário dos serviços do Azure em que você é cobrado com base no uso, o recurso de taxa de transferência provisionada do OpenAI do Azure é adquirido como um compromisso mensal renovável. Esse compromisso é cobrado a partir do momento em que você faz a assinatura e a cada renovação mensal. Ao integrar a taxa de transferência provisionada, é necessário criar um compromisso com cada recurso do OpenAI do Azure no qual você pretende criar uma implantação provisionada. As PTUs que você adquire dessa forma ficarão disponíveis para uso após a criação de implantações nesses recursos.

O número total de PTUs que você pode adquirir por meio de compromissos é limitado à quantidade de cotas de taxa de transferência provisionada atribuída à sua assinatura. A tabela a seguir compara outras características de cotas de PTUs e compromissos de taxa de transferência provisionada.

Tópico Quota Compromissos
Finalidade Concede permissão para criar implantações provisionadas e fornece o limite máximo da capacidade que pode ser usada Adquirir veículo para capacidade de taxa de transferência provisionada
Tempo de vida A cota poderá ser removida da sua assinatura se ela não for comprada por meio de um compromisso em até cinco dias após a sua concessão O prazo mínimo é de um mês, com comportamento de renovação automática selecionável pelo cliente. Um compromisso não pode ser cancelado e nem movido para um novo recurso enquanto estiver ativo
Escopo A cota é específica de uma assinatura e uma região, e é compartilhada em todos os recursos OpenAI do Azure Os compromissos são um atributo de um recurso OpenAI do Azure e têm como escopo implantações dentro desse recurso. Uma assinatura pode conter tantos compromissos ativos quanto recursos.
Granularidade A cota é concedida em específico para uma família de modelos (por exemplo, GPT-4), mas é compartilhável entre versões de modelo dentro da família Os compromissos não são específicos do modelo ou da versão. Por exemplo, o compromisso de 1000 PTU de um recurso pode abranger implantações do GPT-4 e do GPT-35-Turbo
Garantia de capacidade Ter cota não garante que a capacidade esteja disponível ao criar a implantação Há a garantia de disponibilidade de capacidade para cobrir PTUs confirmadas desde que o compromisso esteja ativo.
Aumentos/reduções A nova cota pode ser solicitada e aprovada a qualquer momento, independentemente das datas de renovação do compromisso O número de PTUs cobertas por um compromisso pode ser aumentado a qualquer momento, mas não pode ser reduzido, exceto no momento da renovação.

Cotas e compromissos funcionam em conjunto para controlar a criação de implantações nas assinaturas. Para criar uma implantação provisionada, dois critérios devem ser atendidos:

  • A cota deve estar disponível para o modelo desejado na região e assinatura desejadas. Isso significa que você não pode exceder o limite de assinatura/região para o modelo.
  • As PTUs confirmadas devem estar disponíveis no recurso em que a implantação é criada. (A capacidade atribuída à implantação é paga).

Propriedades de compromisso e modelo de carregamento

Um compromisso inclui várias propriedades.

Propriedade Descrição Quando definido
Recurso OpenAI do Azure O recurso que hospeda o compromisso Criação de compromisso
PTUs confirmadas O número de PTUs cobertas pelo compromisso. Inicialmente definido na criação do compromisso e pode ser aumentado a qualquer momento, mas não reduzido.
Termo O prazo do compromisso. Um compromisso expira um mês a partir da data de criação. A política de renovação define o que acontece a seguir. Criação de compromisso
Data de vencimento A data de validade do compromisso. Esse horário de expiração é à meia-noite do UTC. Inicialmente, 30 dias após a criação. No entanto, a data de validade será alterada se o compromisso for renovado.
Política de renovação Há três opções do quê fazer após a expiração:

- Renovação automática: um novo prazo de compromisso começa por mais 30 dias no número atual de PTUs
- Renovação automática com configurações diferentes: essa configuração é igual a mesma da Renovação automática, com a exceção de que o número de PTUs confirmadas após a renovação pode ser reduzido
- Não renovar automaticamente: após a expiração, o compromisso termina e não é renovado.
Inicialmente é definido na criação do compromisso e pode ser alterado a qualquer momento.

Encargos de Compromisso

Os Compromissos de taxa de transferência provisionados geram custos em sua assinatura do Azure nos seguintes momentos:

  • Na criação do compromisso. A cobrança é computada de acordo com a taxa de PTU mensal atual e o número de PTUs confirmadas. Você receberá uma única cobrança antecipada em sua fatura.

  • Na renovação do compromisso. Se a política de renovação for definida como renovação automática, uma nova cobrança mensal será gerada com base nas PTUs confirmadas no novo prazo. Essa cobrança aparece como uma cobrança única antecipada na fatura.

  • Quando novas PTUs são adicionadas a um compromisso existente. A cobrança é calculada com base no número de PTUs adicionadas ao compromisso, proporcionalmente por hora ao final do prazo de compromisso existente. Por exemplo, se 300 PTUs forem adicionadas a um compromisso existente de 900 PTUs exatamente na metade do período, haverá uma cobrança no momento da adição do equivalente a 150 PTUs (proporcional às 300 PTUs até a data de validade do compromisso). Se o compromisso for renovado, a cobrança do mês seguinte será sobre o novo total de PTU de 1.200 PTUs.

Desde que o número de PTUs implantadas em um recurso seja coberto pelo compromisso do recurso, você visualizará apenas os encargos de compromisso. No entanto, se o número de PTUs implantadas em um recurso for maior do que as PTUs confirmadas do recurso, o excesso de PTUs será cobrado como excedente a uma taxa por hora. Normalmente, a única maneira de esse excesso ocorrer é se um compromisso expirar ou for reduzido em sua renovação enquanto o recurso contiver implantações. Por exemplo, se um compromisso de 300 PTU tiver permissão para expirar em um recurso que tem 300 PTUs implantados, as PTUs implantadas não serão mais cobertas por nenhum compromisso. Depois de atingir a data de validade, cobra-se da assinatura uma taxa excedente por hora com base nas 300 PTUs em excesso.

A taxa por hora é maior do que a taxa de compromisso mensal e os encargos excedem a taxa mensal em poucos dias. Há duas maneiras de acabar com o encargos de excedentes por hora:

  • Exclua ou reduza as implantações para que elas não usem mais PTUs do que as confirmadas.
  • Ao criar um novo compromisso no recurso para cobrir as PTUs implantadas.

Adquirir e gerenciar compromissos

Planejar seus compromissos

Ao receber a confirmação de que a cota de PTU foi atribuída a uma assinatura, você deve criar compromissos nos recursos de destino (ou estender compromissos existentes) para tornar a cota útil para implantações.

Antes de criar compromissos, planeje como as implantações provisionadas serão usadas e quais recursos OpenAI do Azure os hospedarão. Os compromissos têm um prazo mínimo de um mês e não podem ser reduzidos em tamanho até o final do período. Além disso, também não podem ser movidos para novos recursos depois de criados. Por fim, a soma das PTUs confirmadas não pode ser maior do que sua cota. As PTUs confirmadas em um recurso não estarão mais disponíveis para confirmação em um recurso diferente até que o compromisso expire. Ter um plano claro sobre quais recursos serão usados para implantações provisionadas e a capacidade que você pretende aplicar a elas (por pelo menos um mês) ajudará a garantir uma experiência ideal da configuração de taxa de transferência provisionada.

Por exemplo:

  • Não crie um compromisso e uma implantação em um recurso temporário para fins de validação. Você será bloqueado para usar esse recurso por pelo menos um mês. Em vez disso, se o plano for usar as PTUs em um recurso de produção, crie o compromisso e teste a implantação nesse recurso desde o início.

  • Calcule o número de PTUs a serem confirmadas em um recurso com base no número, no modelo e no tamanho das implantações a serem criadas, lembrando o número mínimo de PTUs que cada modelo exige para criar uma implantação.

    • Exemplo 1: o GPT-4-32K exige um mínimo de 200 PTUs para implantação. Se você criar um compromisso de apenas 100 PTUs em um recurso, não terá PTUs confirmadas suficientes para implantar o GPT-4-32K nele

    • Exemplo 2: se você precisar criar várias implantações em um recurso, some as PTUs necessárias para cada implantação. Uma implantação de hospedagem de recursos de produção para 300 PTUs de GPT-4 e 500 PTUs de GPT-4-32K exigirá um compromisso de pelo menos 800 PTUs para cobrir as duas implantações.

  • Distribuir ou consolidar PTUs conforme necessário. Por exemplo, a cota total de 1000 PTUs pode ser distribuída entre recursos conforme necessário para dar suporte às suas implantações. Ela pode ser confirmada em um único recurso para dar suporte a uma ou mais implantações que somam 1.000 PTUs ou distribuídas por vários recursos (por exemplo, um recurso de desenvolvimento e um de produção), desde que o número total de PTUs confirmadas seja menor ou igual à cota de 1000.

  • Considere os requisitos operacionais em seu plano. Por exemplo:

    • Convenções de nomenclatura de recursos exigidas pela organização
    • Políticas de continuidade de negócios que exigem várias implantações de um modelo por região, talvez em diferentes recursos de OpenAI do Azure

Gerenciar compromissos de taxa de transferência provisionada

Os compromissos de taxa de transferência provisionada são criados e gerenciados na exibição Gerenciar compromissos no Azure OpenAI Studio. Navegue até esse modo de exibição selecionando Gerenciar compromissos, no painel Cota:

Captura de tela da interface do usuário de compra de compromisso com notificações.

No modo de exibição Gerenciar compromissos, é possível fazer várias coisas:

  • Comprar novos compromissos ou editar compromissos existentes.
  • Monitorar todos os compromissos em sua assinatura.
  • Identificar e tomar ações sobre compromissos que podem causar cobrança inesperada.

As seções abaixo irão levá-lo através destas tarefas.

Comprar um compromisso de taxa de transferência provisionada

Com seu plano de compromisso pronto, a próxima etapa é criar os compromissos. Os compromissos são criados manualmente por meio do Estúdio do OpenAI do Azure e exigem que o usuário que está criando o compromisso tenha a função de Colaborador ou Colaborador dos Serviços Cognitivos no nível da assinatura.

Para cada novo compromisso que você precisa criar, siga estas etapas:

  1. Inicialize a caixa de diálogo de aquisição de taxa de transferência provisionada selecionando Cotas>Provisionado>Gerenciar compromissos.

Captura de tela da caixa de diálogo de compra.

  1. Selecione Compromisso de compra.

  2. Selecione o recurso OpenAI do Azure e adquira o compromisso. Você visualizará seus recursos divididos em recursos com compromissos existentes, que você poderá editar e recursos que atualmente não têm um compromisso.

Configuração Observações
Selecionar um recurso Escolha o recurso no qual criará a implantação provisionada. Depois de adquirir o compromisso, você não poderá usar as PTUs em outro recurso até que o compromisso atual expire.
Selecione um tipo de compromisso Selecione Provisionado. (Provisionado é equivalente a Gerenciado provisionado)
Cota provisionada não confirmada atual O número de PTUs atualmente disponíveis para você se comprometer com esse recurso.
Quantidade a ser confirmada (PTU) Escolha o número de PTUs que você está se confirmando. Esse número pode ser aumentado durante o termo de compromisso, mas não pode ser reduzido. Insira valores em incrementos de 50 para o tipo de compromisso Provisionado.
Camada de compromisso para o período atual O período de compromisso é definido como um mês.
Configurações de renovação Renovação automática em PTUs atuais
Renovação automática em PTUs inferiores
Não renovar automaticamente
  1. Selecione Comprar. Uma caixa de diálogo de confirmação será exibida. Depois de confirmar, suas PTUs serão confirmadas e você poderá usá-las para criar uma implantação provisionada. |

Captura de tela da interface do usuário de compra de compromisso.

Importante

Um novo compromisso é cobrado antecipadamente por todo o período. Se as configurações de renovação estiverem definidas como renovação automática, você será cobrado novamente em cada data de renovação, com base nas configurações de renovação.

Editar um compromisso de taxa de transferência provisionada existente

No modo de exibição Gerenciar Compromissos, você também poderá editar um compromisso existente. Há dois tipos de alterações que é possível fazer em um compromisso existente:

  • Você poderá adicionar as PTUs ao compromisso.
  • Você poderá alterar as configurações de renovação.

Para editar um compromisso, selecione o atual a ser editado e, em seguida, selecione Editar compromisso.

Adicionar unidades de produtividade provisionadas a compromissos existentes

Adicionar as PTUs a um compromisso existente permitirá criar implantações maiores ou mais numerosas dentro do recurso. É possível fazer isso a qualquer momento durante o período de seu compromisso.

Captura de tela da interface do usuário de compra de compromisso com um aumento no valor para confirmar o valor.

Importante

Ao adicionar as PTUs a um compromisso, elas serão cobradas imediatamente, em um valor proporcional da data atual até o final do termo de compromisso existente. Adicionar as PTUs não redefine o termo de compromisso.

Alterar as configurações de renovação

As configurações de renovação de compromisso podem ser alteradas a qualquer momento antes da data de validade do compromisso. Os motivos pelos quais talvez queira alterar as configurações de renovação incluem o fim do uso da taxa de transferência provisionada, definindo o compromisso de não renovar automaticamente ou diminuir o uso da taxa de transferência provisionada, reduzindo o número de PTUs que serão confirmadas no próximo período.

Importante

Caso permita que um compromisso expire ou diminua de tamanho de modo que as implantações no recurso exijam mais PTUs do que você tem em seu compromisso de recurso, você receberá encargos excedentes por hora para quaisquer PTUs em excesso. Por exemplo, um recurso que tem implantações que totalizam 500 PTUs e um compromisso para 300 PTUs gerará encargos excedentes por hora para 200 PTUs.

Monitorar compromissos e evitar cobranças inesperadas

O painel gerenciar compromissos fornece uma visão geral da assinatura de todos os recursos com compromissos e uso de PTU em uma determinada Assinatura do Azure. De particular interesse de importância são:

  • PTUs Confirmadas, Implantadas e em Uso – Estes números fornecem os tamanhos de seus compromissos e quanto está em uso por implantações. Maximize seu investimento usando todas as PTUs confirmadas.
  • Data e política de expiração – A data de validade e a política informam quando um compromisso expirará e o que acontecerá quando isso acontecer. Um compromisso definido para renovação automática gerará um evento de cobrança na data de renovação. Para compromissos que estão expirando, exclua as implantações destes recursos antes da data de validade para evitar cobrança excedente por hora. As configurações de renovação atuais de um compromisso.
  • Notificações – Alertas sobre condições importantes, como compromissos não usados e configurações que podem resultar em excedentes de cobrança. Os excedentes de cobrança podem ser causados por situações como quando um compromisso expirou e as implantações ainda estão presentes, mas mudaram para a cobrança por hora.

Cenários comuns de gerenciamento de compromisso

Descontinuar o uso da taxa de transferência provisionada

Para encerrar o uso da taxa de transferência provisionada e evitar encargos excedentes por hora após a expiração do compromisso, interrompa os encargos após a expiração dos compromissos atuais, para isso tem de se seguir dois passos:

  1. Defina a política de renovação em todos os compromissos como Não renovar automaticamente.
  2. Exclua as implantações provisionadas usando a cota.

Mover um compromisso/implantação para um novo recurso na mesma assinatura/região

Não é possível no Estúdio do OpenAI do Azure mover diretamente uma implantação ou um compromisso para um novo recurso. Em vez disso, é necessário criar uma nova implantação no recurso de destino e mover o tráfego para ele. Para fazer isso será necessário ter um compromisso adquirido estabelecido no novo recurso. Como os compromissos são cobrados antecipadamente por um período de 30 dias, é necessário cronometrar essa ação com a validade do compromisso original para minimizar o tempo de sobreposição com o novo compromisso e a "cobrança dupla" durante a sobreposição.

Há duas abordagens que podem ser tomadas para implementar essa transição.

Opção 1: substituição sem sobreposição

Essa opção exige algum tempo de inatividade, mas não necessita de cota extra e nem gera custos extras.

Etapas Observações
Definir a política de renovação no compromisso existente para expirar Isso impedirá que o compromisso seja renovado e gere mais cobranças
Antes da expiração do compromisso existente, exclua sua implantação O tempo de inatividade será iniciado neste ponto e durará até que a nova implantação seja criada e o tráfego seja movido. Você minimizará a duração dele ao cronometrar a exclusão para ocorrer o mais próximo possível da data/horário da expiração.
Após o compromisso existente expirar, crie o compromisso no novo recurso Minimize o tempo de inatividade executando essa e a próxima etapa o mais próximo possível da expiração.
Criar a implantação no novo recurso e mover o tráfego para ele

Opção 2: substituição com sobreposição

Essa opção não tem tempo de inatividade por ter implantações existentes e novas ativas ao mesmo tempo. Isso exige cota disponível para criar a nova implantação e gerará custos extras durante as implantações com sobreposição.

Etapas Observações
Definir a política de renovação no compromisso existente para expirar Fazer isso impede que o compromisso seja renovado e gere mais cobranças.
Antes da expiração do compromisso existente:
1. Crie o compromisso no novo recurso.
2. Crie a nova implantação.
3. Alterne o tráfego
4. Exclua a implantação existente
Verifique se deixou tempo suficiente para todas as etapas antes do compromisso existente expirar, caso contrário, cobranças excedentes serão geradas (consulte a próxima seção) para obter opções.

Se a etapa final demorar mais do que o esperado e terminar depois que o compromisso existente expirar, há três opções para minimizar as cobranças excedentes.

  • Gere tempo de inatividade: exclua a implantação original e conclua a movimentação.
  • Pague o excedente: mantenha a implantação original e pague por hora até que você tenha movido o tráfego e excluído a implantação.
  • Redefina o compromisso original para renovar mais uma vez. Isso lhe dará tempo para concluir a movimentação com um custo conhecido.

Tanto pagar pelo excedente quanto redefinir o compromisso original gerará cobranças além da data de validade original. Se precisar de apenas um ou dois dias para concluir a mudança, pagar encargos excedentes pode ser mais barato do que obter um novo compromisso de um mês. Compare os custos das duas opções para encontrar a abordagem de menor custo.

Mover a implantação para uma nova região e ou assinatura

As mesmas abordagens se aplicam à movimentação do compromisso e da implantação na região, com a exceção de que ter a cota disponível no novo local será necessário em todos os casos.

Exibir e editar um recurso existente

No Estúdio do OpenAI do Azure, selecione Cota>Provisionado>Gerenciar compromissos e selecione um recurso com um compromisso existente para exibi-lo/alterá-lo.

Próximas etapas