Implantar modelos em endpoints

8 minutos

Depois de selecionar um modelo do catálogo, implementa-o para o tornar acessível através de endpoints que as suas aplicações podem usar. O portal Microsoft Foundry guia-o durante o processo de implementação e fornece ferramentas para testar imediatamente o seu modelo implementado.

Captura de ecrã da interface do modelo Deploy no portal Foundry.

Compreender os tipos de implementação

O Microsoft Foundry suporta vários tipos de implementação, cada um oferecendo diferentes características para residência de dados, escalabilidade e faturação:

As implementações do Modelo Global Standard podem usar qualquer região Azure com base em pagamento por token. São melhores para cargas de trabalho gerais e oferecem a quota mais alta.
As implementações Global Provisioned podem usar qualquer região Azure, e a sua utilização baseia-se numa base de unidades de débito de provisão reservada (PTU) para proporcionar um alto débito previsível.
As implementações Global Batch podem usar qualquer região Azure com um desconto de 50% para trabalhos assíncronos grandes dentro de 24 horas.
As implementações do Padrão de Zona de Dados garantem que os dados permaneçam dentro de uma zona de dados específica numa base de pagamento por token. São melhores para cenários onde é exigida conformidade com zonas de dados UE/EUA.
As implantações com Zona de Dados Provisionada proporcionam um débito previsível baseado em PTUs reservadas dentro de uma zona de dados.
As implementações Data Zone Batch são concebidas para grandes processos em lote assíncronos dentro de uma zona de dados.
As implementações padrão são implementadas numa única região com base em pagamento por token. São ótimos quando precisas de conformidade com residência regional de dados ou para cenários de baixo volume.
As implantações Regional Provisionadas fornecem PTUs reservadas dentro de uma única região.
Desenvolvedor As implementações de programadores utilizam qualquer região Azure com base em pagamento por token e destinam-se apenas à avaliação de modelos afinados.

Cada modelo no catálogo indica que tipos de implementação suporta. O portal seleciona automaticamente a melhor opção de implementação com base no seu ambiente e nos requisitos do modelo. As implementações de Global Standard nos recursos da Foundry devem ser usadas sempre que possível para maximizar as capacidades.

Implementar um modelo

Para implementar um modelo a partir do portal Microsoft Foundry:

Primeiro, navegue até ao modelo que selecionou no catálogo de modelos. Na página inicial do portal Foundry, selecione Descobrir na navegação, depois Modelos no painel esquerdo. Abra a placa do modelo para rever as suas especificações e tipos de implementação suportados.

Selecione Implementar para iniciar o processo de implementação. Pode escolher:

Definições padrão para implementar rapidamente com configurações recomendadas
Definições personalizadas para personalizar as opções de implementação

Se o modelo exigir uma subscrição do Azure Marketplace (comum para modelos de parceiros e da comunidade), vê os termos de utilização. Veja estes termos e selecione Concordar e Prossiga para os aceitar. Modelos vendidos diretamente pelo Azure, como os modelos OpenAI do Azure como o GPT-4o-mini, não exigem subscrições do marketplace.

Configure as suas definições de implantação:

Nome da implementação: Por defeito, o sistema usa o nome do modelo. Pode modificar isto para criar nomes significativos para múltiplas implementações do mesmo modelo. Durante a inferência, o seu código usa este nome de implementação no model parâmetro para encaminhar pedidos.
Tipo de implementação: O portal seleciona automaticamente o tipo de implementação adequado com base no modelo e no seu ambiente. Cada modelo suporta diferentes tipos de implementação, oferecendo diferentes garantias de residência de dados ou de rendimento.

Para implementações de computação gerida, também se configura:

SKU de máquina virtual: Escolha entre tipos de VM suportados. Precisa da quota de computação do Azure Machine Learning para o SKU selecionado na sua subscrição.
Contagem de instâncias: Especifique quantas instâncias implementar para distribuição de carga e redundância.

Depois de configurar todas as definições, selecione Implementar. Quando a implementação termina, aterras no Foundry Playground, onde podes testar o modelo de forma interativa. Verifique se o estado de implementação mostra Bem-sucedido na sua lista de implementação.

Gerir modelos implementados

Após a implementação, gere os seus modelos a partir da secção Build no portal Microsoft Foundry. Selecione Construir na navegação, depois Modelos no painel esquerdo para ver a lista de implementações no seu recurso.

Da lista de implementação, selecione um modelo específico para visualizar os seus detalhes:

Configuração e estado da implantação
URL do endpoint para acesso API
Chaves ou tokens de autenticação
Monitorização e métricas de utilização
Opção para ajustar as definições de implementação ou eliminar a implementação

A página de detalhes da implementação fornece a informação de que as suas aplicações precisam para se ligar e usar o modelo.

Teste no recreio

O portal Microsoft Foundry inclui playgrounds interativos onde se testam os modelos implementados imediatamente, sem escrever código. Após a conclusão do deployment, aterras automaticamente no playground, ou podes selecionar um deployment da tua lista de modelos para abrir o playground.

O playground pré-seleciona a sua implantação, para que possa começar a testar imediatamente. Na interface de chat:

Introduza os prompts na caixa de mensagens e observe as respostas. O ambiente interativo mostra tanto a sua entrada como a saída gerada pelo modelo, ajudando a compreender o comportamento e a qualidade.

Experimente diferentes tipos de prompts para testar várias capacidades:

Perguntas simples para verificar a compreensão básica
Problemas complexos de raciocínio em múltiplos passos
Pedidos para formatos ou estilos específicos
Casos extremos que podem revelar limitações

Ajustar as mensagens do sistema para guiar o comportamento do modelo. As mensagens do sistema definem contexto, tom e instruções que se aplicam a todas as entradas do utilizador. Por exemplo, pode instruir o modelo a "responder como representante de customer service" ou "fornecer explicações concisas e técnicas."

Modificar parâmetros como temperatura (criatividade vs. consistência), tokens máximos (limites de comprimento de resposta) e top-p (amostragem do núcleo) para ajustar o comportamento de geração.

Selecione o separador Código para ver exemplos de como aceder programaticamente ao seu modelo implementado. Os exemplos de código mostram autenticação, configuração de endpoints e formatação de pedidos em linguagens como Python, C# e JavaScript. Pode copiar estes exemplos diretamente para a sua candidatura.

O playground serve como o seu ambiente de desenvolvimento para engenharia rápida e testes antes de integrar o modelo na sua aplicação.

Aceder a modelos de forma programática

Quando estiver pronto para integrar o modelo na sua aplicação, precisa de três informações-chave dos detalhes da implementação:

URL do endpoint: O endpoint da API onde a sua aplicação envia pedidos. O Microsoft Foundry suporta endpoints de projeto para funcionalidades específicas da Foundry, e endpoints OpenAI v1 para ampla compatibilidade com APIs de modelos OpenAI.

Chave de autenticação: A chave secreta ou token que a sua aplicação apresenta para autenticar pedidos. Em alternativa, pode usar a autenticação Microsoft Entra ID e fazer com que a sua aplicação apresente um token de autenticação baseado na sua identidade. A autenticação por ID Entra é recomendada para cenários de produção.

Nome da implementação: O nome que especificou durante a implementação, usado no model parâmetro dos pedidos de API para encaminhar para a sua implementação específica.

A sua aplicação utiliza estes detalhes para construir pedidos de API. O portal Microsoft Foundry fornece SDKs e documentação da API REST para várias linguagens de programação, juntamente com exemplos de código que mostram formatação de pedidos, autenticação e gestão de respostas.

Com o seu modelo implementado e testado, está pronto para o integrar nas aplicações ou avançar para uma avaliação mais abrangente usando métricas automatizadas e conjuntos de dados de teste.

Comentários

Esta página foi útil?