Tipos de implantação do OpenAI do Azure

Artigo
19/01/2025

O OpenAI do Azure fornece aos clientes opções sobre a estrutura de hospedagem que se ajusta aos seus padrões de negócios e de uso. O serviço oferece dois tipos principais de implantação: o padrão e o provisionado. Para um determinado tipo de implantação, os clientes podem alinhar as cargas de trabalho com os requisitos de processamento de dados delas escolhendo uma geografia do Azure (Standard ou Provisioned-Managed), zona de dados especificada pela Microsoft (DataZone-Standard ouDataZone Provisioned-Managed) ou opções de processamento globais (Global-Standard ou Global Provisioned-Managed).

Todas as implantações podem executar exatamente as mesmas operações de inferência; no entanto, a cobrança, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisará tomar duas decisões importantes:

Local de processamento de dados
Volume de chamadas

Locais de processamento de dados de implantação do OpenAI do Azure

Para implantações padrão, há três opções de tipo de implantação para escolher: a global, a zona de dados e a geografia do Azure. Para implantações provisionadas, há duas opções de tipo de implantação para escolher: a global e a geografia do Azure. O padrão global é o ponto de partida recomendado.

As implantações globais aproveitam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso significa que você obterá os limites de taxa de transferência iniciais mais altos e a melhor disponibilidade do modelo com o Global, ao mesmo tempo em que fornecerá nosso SLA de tempo de atividade e baixa latência. Para cargas de trabalho de alto volume acima das camadas de uso especificadas no padrão global e padrão, você pode experimentar uma variação de latência maior. Para clientes que exigem a menor variação de latência em uso de carga de trabalho grande, é recomendável aproveitar nossos tipos de implantação provisionados.

Nossas implantações globais serão o primeiro local para todos os novos modelos e recursos. Dependendo do volume de chamadas, os clientes com requisitos de variação de baixa latência e volume grande devem considerar nossos tipos de implantação provisionadas.

As implantações de zona de dados aproveitam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente dentro da zona de dados definida pela Microsoft. Posicionadas entre nossas ofertas de implantação de geografia do Azure e global, as implantações de zona de dados fornecem limites de cotas elevados, mantendo o processamento de dados dentro da zona de dados especificada pela Microsoft. Os dados armazenados em repouso continuarão a permanecer na geografia do recurso OpenAI do Azure (por exemplo, para um recurso OpenAI do Azure criado na região do Azure da Suécia Central, a geografia do Azure é a Suécia).

Se o recurso OpenAI do Azure usado em sua implantação de zona de dados estiver localizado nos Estados Unidos, os dados serão processados lá. Se o recurso OpenAI do Azure usado em sua implantação de zona de dados estiver localizado em uma nação membro da União Europeia, os dados serão processados dentro das geografias da nação membro da União Europeia. Para todos os tipos de implantação de serviço OpenAI do Azure, todos os dados armazenados em repouso continuarão na geografia do recurso OpenAI do Azure. Os compromissos de conformidade e processamento de dados do Azure permanecem aplicáveis.

Para qualquer tipo de implantação rotulado como "Global", as solicitações e as respostas podem ser processadas em qualquer localização geográfica onde o modelo do Serviço OpenAI do Azure esteja implantado (saiba mais sobre a disponibilidade regional dos modelos). Para qualquer tipo de implantação rotulado como "DataZone", as solicitações e as respostas podem ser processadas em qualquer localização geográfica dentro da zona de dados especificada, conforme definido pela Microsoft. Se você criar uma implantação do tipo DataZone em um recurso do Serviço OpenAI do Azure localizado nos Estados Unidos, as solicitações e as respostas podem ser processadas em qualquer lugar dentro dos Estados Unidos. Se você criar uma implantação do tipo DataZone em um recurso do Serviço OpenAI do Azure localizado em um país membro da União Europeia, as solicitações e as respostas podem ser processadas nesse país ou em qualquer outro país membro da União Europeia. Para os tipos de implantação Global e DataZone, todos os dados inativos armazenados, como dados carregados, são armazenados na localização geográfica designada pelo cliente. Somente a localização geográfica do processamento é afetada quando um cliente usa um tipo de implantação "Global" ou "DataZone" no Serviço OpenAI do Azure; os compromissos de conformidade e processamento de dados do Azure continuam aplicáveis.

Padrão global

Importante

Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.

As implantações globais estão disponíveis nos mesmos recursos do OpenAI do Azure que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. O padrão global fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga entre vários recursos.

Clientes com alto volume consistente podem ter maior variabilidade de latência. O limite é definido por modelo. Consulte a página de cotas para saber mais. Para aplicativos que exigem a menor variação de latência em uso grande de carga de trabalho, recomendamos a compra de taxa de transferência provisionada.

Provisionado globalmente

Importante

As implantações globais estão disponíveis nos mesmos recursos do OpenAI do Azure que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. As implantações provisionadas globais fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura global do Azure.

Lote global

Importante

Lote global foi projetado para lidar com tarefas de processamento em grande escala e de alto volume com eficiência. Processe grupos assíncronos de solicitações com cota separada, com reviravolta de destino de 24 horas, a custos 50% menor que o padrão global. Com o processamento em lote, em vez de enviar uma solicitação por vez, você deve enviar um grande número de solicitações em um único arquivo. As solicitações em lotes globais têm uma cota de token enfileirada separada, evitando qualquer interrupção das suas cargas de trabalho online.

Os casos de uso incluem:

Processamento de dados em larga escala: analisar rapidamente conjuntos de dados extensos em paralelo.
Geração de Conteúdo: Criar grandes volumes de texto, como descrições de produto ou artigos.
Revisão e Resumo de Documentos: automatizar a revisão e o resumo de documentos longos.
Automação de Suporte ao Cliente: lidar com várias consultas simultaneamente para obter respostas mais rápidas.
Extração e Análise de Dados: extrair e analisar informações de grandes quantidades de dados não estruturados.
Tarefas do Processamento de Linguagem Natural (NLP): execute tarefas como análise de sentimento ou tradução em grandes conjuntos de dados.
Marketing e Personalização: gere conteúdo personalizado e recomendações em escala.

Padrão de zona de dados

Importante

Os dados armazenados inativos permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do OpenAI do Azure dentro da zona de dados especificada da Microsoft. Saiba mais sobre residência de dados.

As implantações padrão de zona de dados estão disponíveis no mesmo recurso do OpenAI do Azure que todos os outros tipos de implantação do OpenAI do Azure, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. O padrão de zona de dados fornece cotas padrão mais altas do que nossos tipos de implantação baseados em geografia do Azure.

Clientes com alto volume consistente podem ter maior variabilidade de latência. O limite é definido por modelo. Consulte a página Cotas e limites para saber mais. Para cargas de trabalho que exigem baixa variação de latência em grande volume, é recomendável aproveitar as ofertas de implantação provisionada.

Zona de dados provisionada

Importante

As implantações provisionadas de zona de dados estão disponíveis no mesmo recurso do Azure OpenAI que todos os outros tipos de implantação do Azure OpenAI, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados especificada pela Microsoft com a melhor disponibilidade para cada solicitação. As implantações provisionadas de zona de dados fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura do Azure dentro da zona de dados especificada pela Microsoft.

Lote da zona de dados

Importante

As implantações em lotes de zona de dados fornecem todas as mesmas funcionalidades que as implantações em lotes globais, permitindo que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego apenas para data centers dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação.

Standard

As implantações padrão fornecem um modelo de cobrança paga por chamada no modelo escolhido. Fornece a maneira mais rápida de começar, pois você paga apenas pelo que consome. Os modelos disponíveis em cada região, bem como a taxa de transferência, podem ser limitados.

As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alta intermitência. Clientes com alto volume consistente podem ter maior variabilidade de latência.

Provisionado

As implantações provisionadas permitem especificar a quantidade de taxa de transferência necessária em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ele esteja pronto para você. A taxa de transferência é definida em termos de PTU (unidades de taxa de transferência provisionada), que é uma maneira normalizada de representar a taxa de transferência para sua implantação. Cada par de modelo/versão requer diferentes quantidades de PTU para implantar e fornecer diferentes quantidades de taxa de transferência por PTU. Saiba mais em nosso Artigo sobre conceitos de taxa de transferência provisionada.

Como desabilitar o acesso a implantações globais em sua assinatura

O Azure Policy ajuda a impor padrões organizacionais e a avaliar a conformidade em escala. Por meio do painel de conformidade, ele fornece uma exibição agregada para avaliar o estado geral do ambiente, com a capacidade de drill down para a granularidade por recurso, por política. Ele também ajuda a deixar seus recursos em conformidade por meio da correção em massa de recursos existentes e da correção automática para novos recursos. Saiba mais sobre o Azure Policy e controles internos específicos para serviços de IA.

Você pode usar a política a seguir para desabilitar o acesso a qualquer tipo de implantação do OpenAI do Azure. Para desabilitar o acesso a um tipo de implantação específico, substitua GlobalStandard pelo nome do SKU para o tipo de implantação ao qual você gostaria de desabilitar o acesso.

JSON

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Implantar modelos

Para saber mais sobre como criar recursos e implantar modelos, consulte o guia de criação de recursos.

Compartilhar via

Tipos de implantação do OpenAI do Azure

Locais de processamento de dados de implantação do OpenAI do Azure

Padrão global

Provisionado globalmente

Lote global

Padrão de zona de dados

Zona de dados provisionada

Lote da zona de dados

Standard

Provisionado

Como desabilitar o acesso a implantações globais em sua assinatura

Implantar modelos

Confira também

Comentários

Recursos adicionais