Modelos multimodais para análise de imagens

7 minutos

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Cada vez mais, os novos modelos de IA são multimodais. Ou seja, suportam vários tipos de dados de entrada, incluindo imagens e texto. Os modelos multimodais são modelos de IA que conseguem compreender e trabalhar com mais do que um tipo de dados ao mesmo tempo, como texto, imagens, áudio ou vídeo. Por exemplo, o modelo multimodal pode descrever uma imagem em linguagem natural ou responder a uma pergunta sobre uma fotografia.

Modelos multimodais são comumente usados como parte de:

Aplicações de IA, onde a compreensão das imagens melhora os fluxos de trabalho dos utilizadores
agentes de IA, onde a entrada visual ajuda o agente a tomar melhores decisões

Os exemplos incluem:

Um agente que analisa documentos carregados e capturas de ecrã
Uma aplicação de suporte que analisa fotografias submetidas por clientes
Uma ferramenta de aprendizagem que explica diagramas ou gráficos em linguagem simples

Como os modelos multimodais aceitam tanto texto como imagens, reduzem a necessidade de pipelines de visão separados e facilitam a construção de experiências inteligentes de ponta a ponta.

A capacidade dos modelos de combinar compreensão visual com respostas em linguagem natural é designada por modelos GPT com capacidades de visão ou GPT com visão. Os modelos baseados em visão são concebidos para raciocínio visual flexível e de uso geral. Conseguem analisar input visual e responder em linguagem natural, facilitando a construção de aplicações inteligentes sem necessidade de profunda experiência em visão computacional.

Modelos multimodais no Microsoft Foundry

O Microsoft Foundry inclui muitos modelos que aceitam entrada baseada em imagem, permitindo-lhe criar soluções inteligentes baseadas em visão. Os modelos multimodais no Microsoft Foundry permitem que aplicações e agentes compreendam, analisem e raciocinem sobre imagens e conteúdos visuais.

Por exemplo, modelos GPT com capacidade de visão no Foundry podem:

Descreva o conteúdo de uma imagem em linguagem natural
Responder a perguntas sobre objetos, texto ou cenas numa imagem
Extrair significado de gráficos, capturas de ecrã, documentos ou fotografias
Combina a compreensão de imagem com instruções de texto num único prompt

O catálogo de modelos da Foundry contém muitos modelos multimodais, incluindo:

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: Estes modelos multimodais de GPT de uso geral podem processar texto e imagens em conjunto. São frequentemente usados para descrição de imagens e respostas visuais a perguntas, análise de documentos e capturas de ecrã, e interpretação de gráficos e diagramas.
Série GPT-5 (por exemplo, GPT-5.1, GPT-5.2): A família GPT-5 disponível na Foundry inclui modelos multimodais avançados concebidos para cenários empresariais e de agentes. Estes modelos suportam entradas multimodais (incluindo texto e imagens), saídas estruturadas e uso de ferramentas, raciocínio em contexto amplo entre modalidades. Os modelos da série GPT-5 são tipicamente usados em agentes de IA de produção e aplicações multimodais complexas.

A Foundry também aloja modelos multimodais fornecidos por parceiros no seu catálogo de modelos, incluindo modelos de fornecedores como a Anthropic e outros que suportam a compreensão de texto e imagens.

Análise de imagem no parque infantil da Foundry

Observação

O portal Foundry tem uma interface de utilizador clássica (UI) e uma nova interface.

No novo portal Microsoft Foundry, pode usar o playground de modelos para conversar com um modelo implementado. Pode selecionar um modelo com visualização, carregar imagens e testar prompts de forma interativa para perceber como o modelo interpreta a informação visual.

Por exemplo, pode anexar um ficheiro de imagem e obter o modelo multimodal (como o gpt-4.1 mini) para o analisar e descrever.

Uma vez validadas, as mesmas capacidades podem ser acedidas programaticamente através de APIs, permitindo que imagens sejam submetidas juntamente com prompts de texto no código da aplicação.

Utilização da API Azure OpenAI para análise de imagens

Para desenvolver uma aplicação, é preciso passar do playground do Foundry para o código. Num editor de código, pode escrever o código da sua aplicação usando a API OpenAI Responses no Foundry. A API OpenAI Responses foi concebida para aplicações agentes e suporta entradas multimodais nativas (incluindo imagens).

A um nível elevado:

Um único pedido pode incluir introdução de texto e de imagem em conjunto
As imagens podem ser fornecidas como URLs ou como dados de imagem codificados em base64
O modelo processa ambas as entradas simultaneamente para gerar uma resposta

Conceptualmente, a estrutura do prompt é a seguinte:

Uma instrução de texto (por exemplo, Que objetos são visíveis nesta imagem?)
Uma ou mais entradas de imagem associadas ao mesmo pedido

Esta abordagem permite aos programadores criar aplicações onde os utilizadores carregam imagens e fazem perguntas sobre elas em tempo real.

Usando o Azure OpenAI Python SDK

Pode usar um recurso Microsoft Foundry com a API OpenAI para realizar análise de imagens — incluindo enviar imagens em prompts e obter respostas em texto — utilizando a API Responses com uma implementação de modelos com capacidade de visualização.

O SDK Python pode ser instalado no terminal do "Visual Studio Code" utilizando:

pip install openai

No editor de código, podemos criar um ficheiro Python, que contém código de aplicação. Importa referir que precisa da chave de recurso do Foundry e do endpoint, bem como do nome do seu modelo implementado.

Observação

Quando implementas um modelo no Foundry, ele tem um nome base ou original , e um nome original de implementação que lhe dões. O Foundry aloja o modelo implementado (por exemplo, modelos de classe GPT com visão) e fornece-lhe um endpoint.

No exemplo do código, cria o cliente, aponta-o para o seu endpoint e passa o nome de implementação do modelo (o nome que deu ao modelo) como o MODEL_NAME.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

Exemplo de aplicação cliente

Pode construir uma aplicação personalizada que utilize um modelo com visão para analisar uma imagem com o SDK Python da OpenAI. Por exemplo, suponha que quer criar uma aplicação que possa identificar animais fotografados no Safari. Podes carregar as tuas fotos e criar um ficheiro Python no teu editor de código.

Captura de ecrã da imagem usada para análise de imagens.

Depois podes escrever código de aplicação que usa a API OpenAI para se ligar ao endpoint do teu modelo no Foundry.

O código da aplicação precisa de carregar os dados da imagem e receber um prompt em linguagem natural do utilizador. Para submeter a entrada ao modelo, é necessário criar uma mensagem em várias partes que inclua tanto a imagem como os dados de texto. O modelo pode responder com um resultado apropriado baseado tanto no texto como na imagem do prompt.

De seguida, aprenda a usar modelos Foundry e o Azure OpenAI SDK para geração de imagens.

Comentários

Esta página foi útil?