Visão geral da implantação para modelos do Microsoft Foundry

O Microsoft Foundry Models é o hub para descobrir e implantar uma ampla gama de modelos de IA para aplicativos de IA generativos. Para disponibilizar um modelo para solicitações de inferência, implante-o. A Foundry oferece duas opções de implantação, dependendo do tipo de modelo e de suas necessidades de infraestrutura.

Gorjeta

Nem sempre é necessário criar uma implantação. Com modelos instantâneos (versão prévia), você chama modelos com suporte por nome e começa a executar a inferência imediatamente — nenhuma implantação é necessária.

Opções de implantação

A Foundry fornece duas opções de implantação:

Implantação padrão em recursos do Foundry — Para Modelos do Foundry, incluindo Modelos do Foundry vendidos pela Azure (também conhecidos como Modelos Diretos da Azure, ou ADM) e modelos selecionados de parceiros e da comunidade. Essa opção é o caminho de implantação preferencial e mais capaz.
Implantação de computação gerenciada (versão prévia) — disponível para todos os modelos de SOFTWARE open source (OSS), incluindo modelos de parceiro e comunidade e modelos personalizados.

O portal do Foundry seleciona automaticamente a opção de implantação apropriada com base no modelo escolhido.

	Implantação padrão nos recursos do Foundry	Computação gerenciada
Modelos	Modelos do ADM (OpenAI do Azure + modelos de parceiro cobrados por meio do Azure) e selecione Modelos de parceiros e comunidade	Outros modelos no catálogo de parceiros e modelos personalizados. Por exemplo, modelos do Hugging Face, NVIDIA NIMs, modelos do setor e Databricks.
Cobrança	Uso de token ou PTU (unidades de taxa de transferência provisionada)	Por hora por SKU de acelerador
Processamento de dados	Regional, zona de dados ou global	Somente regional
Filtragem de conteúdo	Integrado e personalizável	Por meio de APIs de Segurança de Conteúdo de IA do Azure

Implantação padrão nos recursos do Foundry

A implantação padrão em recursos do Foundry é a opção de implantação preferencial no Foundry. Ele dá suporte à maior variedade de recursos e tipos de implantação.

Quais modelos usam a implantação padrão?

Todos os Foundry Models, incluindo Foundry Models vendidos no Azure e modelos selecionados de parceiros e da comunidade, usam a implantação padrão. Os Foundry Models oferecidos pelo Azure incluem todos os modelos do Azure OpenAI e modelos selecionados dos principais provedores, que são faturados por meio da sua assinatura do Azure, cobertos pelos contratos de nível de serviço do Azure e contam com suporte da Microsoft. Selecione Modelos de parceiros e comunidade que usam a implantação padrão incluem modelos antropáticos e modelos específicos de parceiros como Mistral, Cohere e Meta.

Capabilities

A implantação padrão dá suporte a:

Vários tipos de implantação – Padrão Global, Padrão de Zona de Dados, Padrão Regional, Provisionado, Lote e muito mais. Cada tipo controla onde os dados são processados e como você paga. Para obter detalhes, consulte Os tipos de implantação para modelos do Microsoft Foundry.
Flexibilidade de processamento de dados – escolha regional, zona de dados (EUA ou UE) ou processamento global com base em seus requisitos de conformidade.
Filtragem de conteúdo – Filtros internos de Segurança de Conteúdo de IA do Azure com configurações personalizáveis.
Autenticação sem chave — ID do Microsoft Entra (recomendada) e autenticação baseada em chave.
Rede privada – Integração de rede virtual para acesso seguro.
Capacidade provisionada – Reserve capacidade com PTUs para desempenho previsível e de baixa latência. Para obter detalhes, consulte Taxa de transferência provisionada.

Requisitos de recursos

A implantação padrão está disponível em:

Foundry resources – o tipo de recurso primário para novos projetos de Foundry. Nenhum Hub de IA necessário.
Recursos do Azure OpenAI — se você usar recursos do Azure OpenAI, o catálogo de modelos mostrará apenas modelos do Azure OpenAI para implantação. Atualize para um recurso do Foundry para acesso ao conjunto completo de Modelos do Foundry.

Para começar a usar a implantação, consulte Implantar modelos do Microsoft Foundry no portal do Foundry ou Implantar modelos usando a CLI do Azure e o Bicep.

Implantação de computação gerenciada (versão prévia)

Note

A computação gerenciada na Foundry está atualmente em versão prévia pública e o registro é necessário para usá-la. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

A computação gerenciada no Foundry (versão prévia) é uma PaaS (plataforma como serviço) de GPU gerenciada que hospeda modelos de software livre e de peso personalizado na capacidade de GPU dedicada. Você acessa implantações de computação gerenciada por meio do mesmo endpoint do projeto Foundry usado por outros tipos de implantação, sem precisar gerenciar máquinas virtuais, clusters ou ambientes de execução de serviço. Foundry dimensiona a implantação, provisiona os aceleradores e mantém o ambiente de execução atualizado com patches.

Importante

A computação gerenciada dá suporte a modelos de software livre, parceiro, setor e personalizados. As implantações de computação gerenciada são disponibilizadas no endpoint unificado de projeto do Foundry, usando a mesma autenticação, rede e interface do SDK.

Quais modelos usam computação gerenciada?

Exemplos de coleções de modelos que exigem computação gerenciada incluem:

Abraçando o rosto
Alguns modelos meta
Alguns dos modelos Mistral
Microsserviços de Inferência da NVIDIA (NIMs)
Modelos da indústria (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
Databricks
Modelos personalizados

O catálogo do Microsoft Foundry inclui mais de 10.000 modelos de código aberto e de parceiros, com aproximadamente 50 novos modelos publicados a cada mês.

Capabilities

A computação gerenciada (versão prévia) dá suporte a:

Endpoint e autenticação do Foundry unificado — Use o mesmo endpoint do projeto, chaves de API, Microsoft Entra ID e rede privada que as implantações de pagamento por token e de throughput provisionado. As rotas de inferência usam <endpoint>/managed-deployments/<deployment-name>/. Runtimes compatíveis com Chat Completions também funcionam com a rota padrão /openai/v1/ usando o SDK da OpenAI.
Dimensionamento por instância de modelo — As implantações são dimensionadas com base no modelo. Você não precisa escolher SKUs de máquina virtual, pois o Foundry escolhe GPUs por instância com base no tamanho do modelo, arquitetura, comprimento do contexto e se a carga de trabalho é otimizada para latência ou taxa de transferência.
Runtimes de inferência otimizados — contêineres vLLM, SGLang e NVIDIA NIM selecionados pela Microsoft, com processamento em lote contínuo, decodificação especulativa, paralelismo de tensores e troca dinâmica de LoRA.
Famílias de aceleradores — A100 (80 GB), H100 (80 GB), H200 (141 GB) e MI300X.
Escalonamento automático e redução para zero — Escale automaticamente com base no tráfego em tempo real ou escale manualmente. Configure um tempo limite de inatividade para que a implantação seja reduzida a zero quando não houver tráfego, fazendo a cobrança parar imediatamente.
Runtimes gerenciados pela Microsoft — A Microsoft é responsável pelos runtimes de execução, pelas imagens base de contêiner e pelos patches de segurança. As atualizações são aplicadas automaticamente às implantações ativas.
Métricas de observabilidade — cada implantação emite a contagem de chamadas à API por código de status e percentis de tempo de resposta. Os modelos de conclusão de chat também emitem a contagem de tokens de entrada e de saída, percentis de TTFT (tempo até o primeiro token) e percentis do tempo total de resposta, agrupados por tempo.

Cobrança e cota

O faturamento de computação gerenciada é feito por hora, por SKU de acelerador, tendo a capacidade de processamento por GPU como unidade base de faturamento. O dimensionamento automático e a redução para zero alinham os custos ao tráfego real, de modo que a cobrança cesse imediatamente quando as instâncias são reduzidas.

A cota é concedida por SKU de acelerador, por região, por meio do processo de cota do Foundry e é separada da cota de VM do Azure. Azure máquinas virtuais são uma oferta de IaaS (infraestrutura como serviço) com SKUs regionais; a computação gerenciada é uma oferta de PaaS que leva ao processamento global e de zona de dados. A cota de VM Azure existente não pode ser aplicada a uma implantação de computação gerenciada.

Atualmente, a computação gerenciada está disponível para implantação global. Para obter estimativas de taxa, consulte a calculadora de preços Azure.

Introdução

Implantar modelos de software livre com computação gerenciada

Comparação de opção de implantação

Use implantação padrão em recursos do Foundry sempre que possível. A tabela a seguir compara os recursos entre as duas opções de implantação:

Capacidade	Implantação padrão nos recursos do Foundry	Computação gerenciada
Quais modelos podem ser implantados?	Todos os Modelos do Foundry, incluindo Modelos do Foundry vendidos pelo Azure e modelos selecionados de parceiros e da comunidade	Modelos de código aberto e de parceiros do catálogo de modelos, NVIDIA NIM e modelos do setor
Recurso de implantação	Recurso do Foundry	Projeto de fundição
Requer o Hub de IA	No	No
Opções de processamento de dados	Regional, zona de dados, global	Global
Rede privada	Sim	Sim
Filtragem de conteúdo	Integrado e personalizável	Não disponível em versão prévia pública
Autenticação sem chave	Sim (Microsoft Entra ID e baseado em chave)	Sim (Microsoft Entra ID e por chave)
Billing	Uso de tokens ou unidades de taxa de transferência provisionadas	Por hora por SKU de acelerador

Gorjeta

Para obter informações detalhadas sobre preços, consulte Plane e gerencie os custos para Microsoft Foundry.

Comentários

Esta página foi útil?

Last updated on 2026-06-03

Visão geral da implantação para modelos do Microsoft Foundry

Opções de implantação

Implantação padrão nos recursos do Foundry

Quais modelos usam a implantação padrão?

Capabilities

Requisitos de recursos

Implantação de computação gerenciada (versão prévia)

Quais modelos usam computação gerenciada?

Capabilities

Cobrança e cota

Introdução

Comparação de opção de implantação

Conteúdo relacionado

Comentários

Recursos adicionais