Partilhar via


Implantar um modelo finamente ajustado para realização de inferências

Depois que o modelo estiver ajustado, você poderá implantá-lo e usá-lo em seu próprio aplicativo.

Ao implantar o modelo, você disponibiliza o modelo para inferência, e isso incorre em uma taxa de hospedagem por hora. No entanto, os modelos afinados podem ser armazenados no Microsoft Foundry sem custos até estares pronto para os usar.

O Azure OpenAI fornece opções de tipos de implantação para modelos ajustados na estrutura de hospedagem que se ajustam a diferentes padrões de negócios e uso: Padrão, Padrão Global (visualização) e Taxa de Transferência Provisionada (visualização). Saiba mais sobre os tipos de implantação para modelos ajustados e os conceitos de todos os tipos de implantação.

Implante o seu modelo afinado

[!IMPORTANTE] Para implementar modelos, precisa de ser designado como Azure AI owner função ou qualquer função com a ação `Microsoft.CognitiveServices/contas/implementações/escrever".

Para implantar seu modelo personalizado, selecione o modelo personalizado a ser implantado e, em seguida, selecione Implantar.

A caixa de diálogo Implantar modelo é aberta. Na caixa de diálogo, digite o nome da implantação e selecione Criar para iniciar a implantação do modelo personalizado.

Captura de ecrã que mostra como implementar um modelo personalizado no portal do Foundry.

Pode acompanhar o progresso da sua implementação no painel de Implementações no portal Foundry.

A interface do usuário não suporta a implantação entre regiões, enquanto o Python SDK ou REST suporta.

Important

Depois de implantar um modelo personalizado, se a qualquer momento a implantação permanecer inativa por mais de 15 dias, a implantação será excluída. A implementação de um modelo personalizado está inativa se o modelo foi implementado há mais de 15 dias e não foram feitas chamadas de chat ou respostas à API durante um período contínuo de 15 dias.

A eliminação de uma implementação inativa não apaga nem afeta o modelo personalizado subjacente. O modelo personalizado pode ser redistribuído a qualquer momento.

Como descrito no Azure OpenAI na definição de preços do Microsoft Foundry Models, cada modelo personalizado (ajustado finamente) implementado implica um custo horário de alojamento, independentemente de serem feitas chamadas de chat ou de API de resposta ao modelo. Para saber mais sobre planeamento e gestão de custos com Azure OpenAI, consulte Planear e gerir custos para Azure OpenAI.

Utilize o seu modelo implantado e refinado

Depois que seu modelo personalizado for implantado, você poderá usá-lo como qualquer outro modelo implantado. Podes usar os Playgrounds no portal da Foundry para experimentar a tua nova implementação. Você pode continuar a usar os mesmos parâmetros com seu modelo personalizado, como temperature e max_tokens, como pode fazer com outros modelos implantados.

Captura de ecrã do painel Playground no portal Foundry, com secções destacadas.

Armazenamento em cache de comandos

O ajuste fino do Azure OpenAI dá suporte ao caching de prompts em modelos selecionados. A cache de prompts permite reduzir a latência geral das solicitações e o custo para prompts mais longos que têm conteúdo idêntico no início. Para saber mais sobre o cache de prompts, consulte Introdução ao cache de prompts.

Tipos de implantação

O ajuste fino do Azure OpenAI dá suporte aos seguintes tipos de implantação.

Standard

As implantações padrão fornecem um modelo de cobrança de pagamento por token com residência de dados confinada à região implantada.

Models Leste dos EUA2 E.U.A. Centro-Norte Suécia Central
O4-Mini
GPT-4,1
GPT-4.1-mini
GPT-4.1-nano
GPT-4O
GPT-4o-mini

Padrão Global

As implementações ajustadas aos padrões globais oferecem economia de custos, mas pesos de modelos personalizados podem ser temporariamente armazenados fora da região do seu recurso do Azure OpenAI.

As implantações padrão globais estão disponíveis em todas as regiões do Azure OpenAI para os seguintes modelos:

  • O4-Mini
  • GPT-4,1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • GPT-4O
  • GPT-4o-mini

Captura de ecrã da experiência do utilizador da implementação padrão global com um modelo otimizado.

Nível de desenvolvedor

As implantações ajustadas pelo desenvolvedor oferecem uma experiência semelhante à Global Standard sem uma taxa de hospedagem por hora, mas não oferecem um SLA de disponibilidade. As implantações de desenvolvedores são projetadas para avaliação de candidato a modelo e não para uso em produção.

As implantações de desenvolvedor estão disponíveis em todas as regiões do Azure OpenAI para os seguintes modelos:

  • GPT-4,1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • O4-Mini

Taxa de transferência provisionada

Models E.U.A. Centro-Norte Suécia Central
GPT-4,1
GPT-4O
GPT-4o-mini

As implantações otimizadas de taxa de transferência provisionada oferecem desempenho previsível para agentes e aplicações sensíveis à latência. Eles usam a mesma capacidade de taxa de transferência provisionada regional (PTU) que os modelos base, portanto, se já tiver uma cota de taxa de transferência provisionada regional, poderá implantar o seu modelo ajustado nas regiões suportadas.

Limpe sua implantação

Para excluir uma implantação, use a API Deployments - Delete REST e envie um HTTP DELETE para o recurso de implantação. Assim como na criação de implantações, você deve incluir os seguintes parâmetros:

  • Id de subscrição do Azure
  • Nome do grupo de recursos do Azure
  • Nome do recurso do Azure OpenAI
  • Nome da implantação a ser excluída

Abaixo está o exemplo da API REST para excluir uma implantação:

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>?api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

Também pode eliminar uma implementação no portal Foundry ou usar Azure CLI.

Próximos passos