Usar um modelo com capacidade de visão no portal do Microsoft Foundry

Concluído

Para lidar com prompts que incluem imagens, você precisa implantar um modelo de IA multimodal – em outras palavras, um modelo que dá suporte não apenas à entrada baseada em texto, mas também à entrada baseada em imagem (e, em alguns casos, baseada em áudio). Os modelos multimodal disponíveis no Microsoft Foundry incluem (entre outros):

  • Microsoft Phi-4-multimodal-instruct
  • OpenAI gpt-4.1
  • OpenAI gpt-4.1-mini

Dica

Para saber mais sobre os modelos disponíveis no Microsoft Foundry, consulte o artigo de visão geral dos Modelos do Microsoft Foundry na documentação do Microsoft Foundry.

Testar modelos multimodais com prompts baseados em imagem

Depois de implantar um modelo multimodal, você pode testá-lo no playground de chat no portal do Microsoft Foundry.

Captura de tela do playground de chat com um prompt baseado em imagem.

No playground de chat, você pode carregar uma imagem de um arquivo local e adicionar texto à mensagem para provocar uma resposta de um modelo multimodal.