Implantar modelos em endpoints

Concluído

Depois de selecionar um modelo do catálogo, implementa-o para o tornar acessível através de endpoints que as suas aplicações podem usar. O portal Microsoft Foundry guia-o durante o processo de implementação e fornece ferramentas para testar imediatamente o seu modelo implementado.

Captura de ecrã da interface do modelo Deploy no portal Foundry.

Compreender os tipos de implementação

O Microsoft Foundry suporta vários tipos de implementação, cada um oferecendo diferentes características para residência de dados, escalabilidade e faturação:

  • As implementações do Modelo Global Standard podem usar qualquer região Azure com base em pagamento por token. São melhores para cargas de trabalho gerais e oferecem a quota mais alta.
  • As implementações Global Provisioned podem usar qualquer região Azure, e a sua utilização baseia-se numa base de unidades de débito de provisão reservada (PTU) para proporcionar um alto débito previsível.
  • As implementações Global Batch podem usar qualquer região Azure com um desconto de 50% para trabalhos assíncronos grandes dentro de 24 horas.
  • As implementações do Padrão de Zona de Dados garantem que os dados permaneçam dentro de uma zona de dados específica numa base de pagamento por token. São melhores para cenários onde é exigida conformidade com zonas de dados UE/EUA.
  • As implantações com Zona de Dados Provisionada proporcionam um débito previsível baseado em PTUs reservadas dentro de uma zona de dados.
  • As implementações Data Zone Batch são concebidas para grandes processos em lote assíncronos dentro de uma zona de dados.
  • As implementações padrão são implementadas numa única região com base em pagamento por token. São ótimos quando precisas de conformidade com residência regional de dados ou para cenários de baixo volume.
  • As implantações Regional Provisionadas fornecem PTUs reservadas dentro de uma única região.
  • Desenvolvedor As implementações de programadores utilizam qualquer região Azure com base em pagamento por token e destinam-se apenas à avaliação de modelos afinados.

Cada modelo no catálogo indica que tipos de implementação suporta. O portal seleciona automaticamente a melhor opção de implementação com base no seu ambiente e nos requisitos do modelo. As implementações de Global Standard nos recursos da Foundry devem ser usadas sempre que possível para maximizar as capacidades.

Implementar um modelo

Para implementar um modelo a partir do portal Microsoft Foundry:

Primeiro, navegue até ao modelo que selecionou no catálogo de modelos. Na página inicial do portal Foundry, selecione Descobrir na navegação, depois Modelos no painel esquerdo. Abra a placa do modelo para rever as suas especificações e tipos de implementação suportados.

Selecione Implementar para iniciar o processo de implementação. Pode escolher:

  • Definições padrão para implementar rapidamente com configurações recomendadas
  • Definições personalizadas para personalizar as opções de implementação

Se o modelo exigir uma subscrição do Azure Marketplace (comum para modelos de parceiros e da comunidade), vê os termos de utilização. Veja estes termos e selecione Concordar e Prossiga para os aceitar. Modelos vendidos diretamente pelo Azure, como os modelos OpenAI do Azure como o GPT-4o-mini, não exigem subscrições do marketplace.

Configure as suas definições de implantação:

  • Nome da implementação: Por defeito, o sistema usa o nome do modelo. Pode modificar isto para criar nomes significativos para múltiplas implementações do mesmo modelo. Durante a inferência, o seu código usa este nome de implementação no model parâmetro para encaminhar pedidos.
  • Tipo de implementação: O portal seleciona automaticamente o tipo de implementação adequado com base no modelo e no seu ambiente. Cada modelo suporta diferentes tipos de implementação, oferecendo diferentes garantias de residência de dados ou de rendimento.

Para implementações de computação gerida, também se configura:

  • SKU de máquina virtual: Escolha entre tipos de VM suportados. Precisa da quota de computação do Azure Machine Learning para o SKU selecionado na sua subscrição.
  • Contagem de instâncias: Especifique quantas instâncias implementar para distribuição de carga e redundância.

Depois de configurar todas as definições, selecione Implementar. Quando a implementação termina, aterras no Foundry Playground, onde podes testar o modelo de forma interativa. Verifique se o estado de implementação mostra Bem-sucedido na sua lista de implementação.

Gerir modelos implementados

Após a implementação, gere os seus modelos a partir da secção Build no portal Microsoft Foundry. Selecione Construir na navegação, depois Modelos no painel esquerdo para ver a lista de implementações no seu recurso.

Da lista de implementação, selecione um modelo específico para visualizar os seus detalhes:

  • Configuração e estado da implantação
  • URL do endpoint para acesso API
  • Chaves ou tokens de autenticação
  • Monitorização e métricas de utilização
  • Opção para ajustar as definições de implementação ou eliminar a implementação

A página de detalhes da implementação fornece a informação de que as suas aplicações precisam para se ligar e usar o modelo.

Teste no recreio

O portal Microsoft Foundry inclui playgrounds interativos onde se testam os modelos implementados imediatamente, sem escrever código. Após a conclusão do deployment, aterras automaticamente no playground, ou podes selecionar um deployment da tua lista de modelos para abrir o playground.

O playground pré-seleciona a sua implantação, para que possa começar a testar imediatamente. Na interface de chat:

Introduza os prompts na caixa de mensagens e observe as respostas. O ambiente interativo mostra tanto a sua entrada como a saída gerada pelo modelo, ajudando a compreender o comportamento e a qualidade.

Experimente diferentes tipos de prompts para testar várias capacidades:

  • Perguntas simples para verificar a compreensão básica
  • Problemas complexos de raciocínio em múltiplos passos
  • Pedidos para formatos ou estilos específicos
  • Casos extremos que podem revelar limitações

Ajustar as mensagens do sistema para guiar o comportamento do modelo. As mensagens do sistema definem contexto, tom e instruções que se aplicam a todas as entradas do utilizador. Por exemplo, pode instruir o modelo a "responder como representante de customer service" ou "fornecer explicações concisas e técnicas."

Modificar parâmetros como temperatura (criatividade vs. consistência), tokens máximos (limites de comprimento de resposta) e top-p (amostragem do núcleo) para ajustar o comportamento de geração.

Selecione o separador Código para ver exemplos de como aceder programaticamente ao seu modelo implementado. Os exemplos de código mostram autenticação, configuração de endpoints e formatação de pedidos em linguagens como Python, C# e JavaScript. Pode copiar estes exemplos diretamente para a sua candidatura.

O playground serve como o seu ambiente de desenvolvimento para engenharia rápida e testes antes de integrar o modelo na sua aplicação.

Aceder a modelos de forma programática

Quando estiver pronto para integrar o modelo na sua aplicação, precisa de três informações-chave dos detalhes da implementação:

URL do endpoint: O endpoint da API onde a sua aplicação envia pedidos. O Microsoft Foundry suporta endpoints de projeto para funcionalidades específicas da Foundry, e endpoints OpenAI v1 para ampla compatibilidade com APIs de modelos OpenAI.

Chave de autenticação: A chave secreta ou token que a sua aplicação apresenta para autenticar pedidos. Em alternativa, pode usar a autenticação Microsoft Entra ID e fazer com que a sua aplicação apresente um token de autenticação baseado na sua identidade. A autenticação por ID Entra é recomendada para cenários de produção.

Nome da implementação: O nome que especificou durante a implementação, usado no model parâmetro dos pedidos de API para encaminhar para a sua implementação específica.

A sua aplicação utiliza estes detalhes para construir pedidos de API. O portal Microsoft Foundry fornece SDKs e documentação da API REST para várias linguagens de programação, juntamente com exemplos de código que mostram formatação de pedidos, autenticação e gestão de respostas.

Com o seu modelo implementado e testado, está pronto para o integrar nas aplicações ou avançar para uma avaliação mais abrangente usando métricas automatizadas e conjuntos de dados de teste.