Modelos multimodal para análise de imagem

7 minutos

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Cada vez mais, novos modelos de IA são multimodais. Em outras palavras, eles dão suporte a vários tipos de dados de entrada, incluindo imagens e texto. Modelos multimodal são modelos de IA que podem entender e trabalhar com mais de um tipo de dados ao mesmo tempo, como texto, imagens, áudio ou vídeo. Por exemplo, o modelo multimodal pode descrever uma imagem em linguagem natural ou responder a uma pergunta sobre uma foto.

Modelos multimodal são comumente usados como parte de:

Aplicativos de IA, em que o reconhecimento de imagem aprimora os fluxos de trabalho do usuário
Agentes de IA, em que a entrada visual ajuda o agente a tomar melhores decisões

Os exemplos incluem:

Um agente que revisa documentos e capturas de tela carregados
Um aplicativo de suporte que analisa as fotos enviadas pelos clientes
Uma ferramenta de aprendizado que explica diagramas ou gráficos em linguagem simples

Como os modelos multimodal aceitam texto e imagens, eles reduzem a necessidade de pipelines de visão separados e facilitam a criação de experiências inteligentes de ponta a ponta.

A capacidade dos modelos de combinar compreensão visual com respostas de linguagem natural é conhecida como modelos GPT habilitados para visão ou GPT com visão. Modelos equipados com visão são projetados para raciocínio visual flexível e de uso geral. Eles podem analisar a entrada visual e responder em linguagem natural, facilitando a criação de aplicativos inteligentes sem precisar de experiência profunda em pesquisa visual computacional.

Modelos multimodais no Microsoft Foundry

O Microsoft Foundry inclui muitos modelos que aceitam entrada baseada em imagem, permitindo que você crie soluções inteligentes baseadas em visão. Modelos multimodal no Microsoft Foundry permitem que aplicativos e agentes entendam, analisem e raciocinam sobre imagens e conteúdo visual.

Por exemplo, modelos GPT habilitados para visão no Foundry podem:

Descrever o conteúdo de uma imagem em linguagem natural
Responder perguntas sobre objetos, texto ou cenas em uma imagem
Extrair significado de gráficos, capturas de tela, documentos ou fotos
Combinar compreensão de imagem com instruções de texto em um único prompt

O catálogo de modelos da Foundry contém muitos modelos multimodal, incluindo:

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: esses modelos gpt multimodal de uso geral podem processar texto e imagens juntos. Eles são comumente usados para descrição da imagem e resposta a perguntas visuais, análise de documento e captura de tela e interpretação de gráfico e diagrama.
A Série GPT-5 (por exemplo, GPT-5.1, GPT-5.2): A família GPT-5 disponível na Foundry inclui modelos multimodais avançados projetados para cenários empresariais e agenciais. Esses modelos dão suporte a entradas multimodal (incluindo texto e imagens), saídas estruturadas e uso de ferramentas, raciocínio de contexto grande entre modalidades. Os modelos da série GPT-5 normalmente são usados em agentes de IA de nível de produção e aplicativos multimodal complexos.

A Foundry também hospeda modelos multimodal fornecidos pelo parceiro em seu catálogo de modelos, incluindo modelos de provedores como o Antropic e outros que dão suporte à compreensão de texto e imagem.

Análise de imagens no playground do Foundry

Observação

O portal do Foundry tem uma interface do usuário (interface do usuário) clássica e uma nova interface do usuário.

No novo portal do Microsoft Foundry, você pode usar o playground de modelos para conversar com um modelo implantado. Você pode selecionar um modelo habilitado para visão, carregar imagens e testar prompts interativamente para entender como o modelo interpreta informações visuais.

Por exemplo, você pode anexar um arquivo de imagem e obter o modelo multimodal (como gpt-4.1 mini) para analisá-lo e descrevê-lo.

Depois de validados, os mesmos recursos podem ser acessados programaticamente usando APIs, permitindo que as imagens sejam enviadas junto com prompts de texto no código do aplicativo.

Usando a API openai do Azure para análise de imagem

Para desenvolver um aplicativo, é necessário partir do playground do Foundry e passar para o código. Em um editor de código, você pode escrever o código do aplicativo usando a API de Respostas OpenAI no Foundry. A API de Respostas OpenAI foi projetada para aplicativos agente e dá suporte a entradas multimodal nativas (incluindo imagens).

Em um alto nível:

Uma única solicitação pode incluir entrada de texto e entrada de imagem em conjunto
As imagens podem ser fornecidas como URLs ou como dados de imagem codificados em base64
O modelo processa ambas as entradas simultaneamente para gerar uma resposta

Conceitualmente, a estrutura do prompt tem a seguinte aparência:

Uma instrução de texto (por exemplo, quais objetos são visíveis nesta imagem?)
Uma ou mais entradas de imagem anexadas à mesma solicitação

Essa abordagem permite que os desenvolvedores criem aplicativos em que os usuários carregam imagens e façam perguntas sobre elas em tempo real.

Usando o SDK do Python do Azure OpenAI

Você pode usar um recurso do Microsoft Foundry utilizando a API OpenAI para realizar a análise de imagens — incluindo o envio de imagens em prompts e a obtenção de respostas em texto — através do uso da API de Respostas com uma implantação de modelo que possui capacidade de visão.

O SDK do Python pode ser instalado no terminal do Visual Studio Code usando:

pip install openai

No editor de código, podemos criar um arquivo Python, que contém o código do aplicativo. É importante ressaltar que você precisa da chave de recurso do Foundry, do endpoint e do nome do modelo implantado.

Observação

Quando você implanta um modelo na Foundry, ele tem um nome base ou original e um nome de implantação original que você atribui a ele. O Foundry hospeda o modelo implantado (por exemplo, modelos da classe GPT com visão) e fornece um ponto de extremidade.

No exemplo de código, você cria o cliente, aponta-o para o ponto de extremidade e passa o nome da implantação do modelo (o nome que deu ao modelo) como o MODEL_NAME.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

Exemplo de aplicativo cliente

Você pode criar um aplicativo personalizado que usa um modelo habilitado para visão para analisar uma imagem com o SDK do Python OpenAI. Por exemplo, suponha que você queira criar um aplicativo que possa identificar animais fotografados no Safari. Você pode carregar suas fotos e criar um arquivo Python em seu editor de código.

Captura de tela da imagem usada para análise de imagem.

Em seguida, você pode escrever o código do aplicativo que usa a API OpenAI para se conectar ao endpoint do seu modelo no Foundry.

O código do aplicativo precisa carregar os dados da imagem e obter um prompt de linguagem natural de um usuário. Para enviar a entrada para o modelo, você precisa criar uma mensagem de várias partes que inclua os dados de imagem e de texto. O modelo pode responder com uma saída apropriada com base no texto e na imagem no prompt.

Em seguida, saiba como usar modelos do Foundry e o SDK do Azure OpenAI para geração de imagem.

Comentários

Esta página foi útil?