Tipos de implantação do OpenAI do Azure
O OpenAI do Azure fornece aos clientes opções sobre a estrutura de hospedagem que se ajusta aos seus padrões de negócios e de uso. O serviço oferece dois tipos principais de implantação: padrão e provisionado. O Standard é oferecido com uma opção de implantação global, roteando o tráfego globalmente para fornecer uma taxa de transferência mais alta. Provisionado também é oferecido com uma opção de implantação global, permitindo que os clientes comprem e implantem unidades de produtividade provisionadas em toda a infraestrutura global do Azure. Todas as implantações podem executar exatamente as mesmas operações de inferência, no entanto, a cobrança, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisará tomar duas decisões importantes:
- Necessidades de processamento de dados: recursos globais vs. regionais
- Volume de chamadas: padrão versus provisionado
Tipos de implantação globais versus regionais
Para implantações padrão e provisionadas, você tem uma opção de dois tipos de configurações em seu recurso – global ou regional. O padrão global é o ponto de partida recomendado.
As implantações globais aproveitam a infraestrutura global do Azure, roteiam dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso significa que você obterá os limites de taxa de transferência iniciais mais altos e a melhor disponibilidade do modelo com o Global, ao mesmo tempo em que fornecerá nosso SLA de tempo de atividade e baixa latência. Para cargas de trabalho de alto volume acima das camadas de uso especificadas no padrão global e padrão, você pode experimentar uma variação de latência maior. Para clientes que exigem a menor variação de latência em uso de carga de trabalho grande, recomendamos a compra de taxa de transferência provisionada.
Nossas implantações globais serão o primeiro local para todos os novos modelos e recursos. Os clientes com requisitos de taxa de transferência muito grandes devem considerar nossa oferta de implantação provisionada.
Tipos de implantação
O OpenAI do Azure oferece três tipos de implantações. Elas fornecem um nível variado de funcionalidades que fornecem compensações em: taxa de transferência, SLAs e preço. Veja abaixo um resumo das opções seguidas por uma descrição mais profunda de cada uma.
Oferta | Global-Batch | Global-Standard | Global-Provisionado | Standard | Provisionado |
---|---|---|---|---|---|
Mais indicada para | Pontuação offline Cargas de trabalho que não diferenciam latência e podem ser concluídas em horas. |
Local de início recomendado para clientes. O Global-Standard terá a cota padrão mais alta e um número maior de modelos disponíveis do que o Standard. |
Pontuação em tempo real para um grande volume consistente. Inclui os maiores compromissos e limites. | Para clientes com requisitos de residência de dados. Otimizada para volume baixo a médio. | Pontuação em tempo real para um grande volume consistente. Inclui os maiores compromissos e limites. Para casos de uso com requisitos de residência de dados |
Como funciona | Processamento offline por meio de arquivos | O tráfego pode ser roteado em qualquer lugar do mundo | O tráfego pode ser roteado em qualquer lugar do mundo | ||
Guia de Introdução | Global-Batch | Implantação de modelo | Integração provisionada | Implantação de modelo | Integração provisionada |
Custo | Opção mais barata Custo 50% menor em comparação com os preços padrão global. Acesso a todos os novos modelos com alocações de cota maiores. |
Preço da implantação global | Pode ter economia de custos para uso consistente | Preços regionais | Pode ter economia de custos para uso consistente |
O que você obtém | Desconto significativo em comparação com o Global Standard | Fácil acesso a todos os novos modelos com os limites de pagamento por chamada padrão mais altos. Clientes com alto uso de volume podem ver maior variabilidade de latência |
Acesso à alta e previsível taxa de transferência em toda a infraestrutura global do Azure. Determine a taxa de transferência por PTU usando a calculadora de capacidade fornecida. | Fácil acesso com SLA na disponibilidade. Otimizada para cargas de trabalho de baixo a médio volume com alta intermitência. Clientes com alto volume consistente podem ter maior variabilidade de latência. |
Acesso regional com taxa de transferência muito alta e previsível. Determinação da a taxa de transferência por PTU usando a calculadora de capacidade fornecida |
O que você não recebe | ❌Desempenho rápido em tempo real ❌Garantia de processamento de dados Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados |
❌Garantia de processamento de dados Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados |
❌Flexibilidade de pagamento por chamada ❌Garantia de processamento de dados Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados |
❌Alto volume com baixa latência consistente | ❌Flexibilidade de pagamento por chamada |
Latência por chamada | Não aplicável (processo assíncrono baseado em arquivo) | Otimizada para chamada em tempo real e uso de volume baixo a médio. Clientes com alto uso de volume podem ver maior variabilidade de latência. Conjunto de limites por modelo | Otimizado para chamada em tempo real e uso de alto volume. | Otimizada para chamada em tempo real e uso de volume baixo a médio. Clientes com alto uso de volume podem ver maior variabilidade de latência. Conjunto de limites por modelo | Otimizado para chamada em tempo real e uso de alto volume. |
Nome do SKU no código | GlobalBatch |
GlobalStandard |
GlobalProvisionedManaged |
Standard |
ProvisionedManaged |
Modelo de cobrança | Pagamento por token | Pagamento por token | Cobrança por hora com compra opcional de reservas mensais ou anuais | Pagamento por token | Cobrança por hora com compra opcional de reservas mensais ou anuais |
Provisionado
As implantações provisionadas permitem especificar a quantidade de taxa de transferência necessária em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ele esteja pronto para você. A taxa de transferência é definida em termos de PTU (unidades de taxa de transferência provisionada), que é uma maneira normalizada de representar a taxa de transferência para sua implantação. Cada par de modelo/versão requer diferentes quantidades de PTU para implantar e fornecer diferentes quantidades de taxa de transferência por PTU. Saiba mais em nosso Artigo sobre conceitos de taxa de transferência provisionada.
Standard
As implantações padrão fornecem um modelo de cobrança paga por chamada no modelo escolhido. Fornece a maneira mais rápida de começar, pois você paga apenas pelo que consome. Os modelos disponíveis em cada região, bem como a taxa de transferência, podem ser limitados.
As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alta intermitência. Clientes com alto volume consistente podem ter maior variabilidade de latência.
Padrão global
Importante
Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.
As implantações globais estão disponíveis nos mesmos recursos do OpenAI do Azure que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. O padrão global fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga entre vários recursos.
Clientes com alto volume consistente podem ter maior variabilidade de latência. O limite é definido por modelo. Consulte a página de cotas para saber mais. Para aplicativos que exigem a menor variação de latência em uso grande de carga de trabalho, recomendamos a compra de taxa de transferência provisionada.
Provisionado globalmente
Importante
Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.
As implantações globais estão disponíveis nos mesmos recursos do OpenAI do Azure que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. As implantações provisionadas globais fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura global do Azure.
Lote global
Importante
Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.
Lote global foi projetado para lidar com tarefas de processamento em grande escala e de alto volume com eficiência. Processe grupos assíncronos de solicitações com cota separada, com reviravolta de destino de 24 horas, a custos 50% menor que o padrão global. Com o processamento em lote, em vez de enviar uma solicitação por vez, você deve enviar um grande número de solicitações em um único arquivo. As solicitações em lotes globais têm uma cota de token enfileirada separada, evitando qualquer interrupção das suas cargas de trabalho online.
Os casos de uso incluem:
Processamento de dados em larga escala: analisar rapidamente conjuntos de dados extensos em paralelo.
Geração de Conteúdo: Criar grandes volumes de texto, como descrições de produto ou artigos.
Revisão e Resumo de Documentos: automatizar a revisão e o resumo de documentos longos.
Automação de Suporte ao Cliente: lidar com várias consultas simultaneamente para obter respostas mais rápidas.
Extração e Análise de Dados: extrair e analisar informações de grandes quantidades de dados não estruturados.
Tarefas do Processamento de Linguagem Natural (NLP): execute tarefas como análise de sentimento ou tradução em grandes conjuntos de dados.
Marketing e Personalização: gere conteúdo personalizado e recomendações em escala.
Como desabilitar o acesso a implantações globais em sua assinatura
O Azure Policy ajuda a impor padrões organizacionais e a avaliar a conformidade em escala. Por meio do painel de conformidade, ele fornece uma exibição agregada para avaliar o estado geral do ambiente, com a capacidade de drill down para a granularidade por recurso, por política. Ele também ajuda a deixar seus recursos em conformidade por meio da correção em massa de recursos existentes e da correção automática para novos recursos. Saiba mais sobre o Azure Policy e controles internos específicos para serviços de IA.
Você pode usar a política a seguir para desabilitar o acesso às implantações padrão global do OpenAI do Azure. Para desabilitar o acesso a implantações globais de lote provisionadas ou globais do Azure, substitua GlobalStandard
por GlobalProvisionedManaged
ou GlobalBatch
para o nome de SKU pretendido.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Implantar modelos
Para saber mais sobre como criar recursos e implantar modelos, consulte o guia de criação de recursos.