Modèles modals pour l’analyse d’images

7 minutes

Tip

Pour plus d’informations, consultez l’onglet Texte et images !

De plus en plus, les nouveaux modèles IA sont multimodaux. En d’autres termes, ils prennent en charge plusieurs types de données d’entrée, notamment des images et du texte. Les modèles modals sont des modèles IA qui peuvent comprendre et utiliser plusieurs types de données en même temps, tels que du texte, des images, de l’audio ou de la vidéo. Par exemple, le modèle modal peut décrire une image en langage naturel ou répondre à une question sur une photo.

Les modèles modals sont couramment utilisés dans le cadre des éléments suivants :

Applications IA, où la compréhension des images améliore les flux de travail des utilisateurs
Agents IA, où l’entrée visuelle aide l’agent à prendre de meilleures décisions

Voici quelques exemples :

Agent qui passe en revue les documents chargés et les captures d’écran
Application de support qui analyse les photos soumises par les clients
Outil d’apprentissage qui explique des diagrammes ou des graphiques en langage brut

Étant donné que les modèles modals acceptent à la fois du texte et des images, ils réduisent le besoin de pipelines de vision distincts et facilitent la création d’expériences intelligentes de bout en bout.

La possibilité pour les modèles de combiner la compréhension visuelle avec les réponses en langage naturel est appelée modèles GPT compatibles avec la vision ou GPT avec vision. Les modèles compatibles vision sont conçus pour un raisonnement visuel flexible et universel. Ils peuvent analyser l’entrée visuelle et répondre en langage naturel, ce qui facilite la création d’applications intelligentes sans avoir besoin d’une expertise approfondie en vision par ordinateur.

Modèles multimodaux dans Microsoft Foundry

Microsoft Foundry inclut de nombreux modèles qui acceptent des entrées basées sur des images, ce qui vous permet de créer des solutions intelligentes basées sur la vision. Les modèles modals dans Microsoft Foundry permettent aux applications et aux agents de comprendre, analyser et raisonner sur les images et le contenu visuel.

Par exemple, les modèles GPT compatibles avec la vision dans Foundry peuvent :

Décrire le contenu d’une image en langage naturel
Répondre aux questions sur les objets, le texte ou les scènes d’une image
Extraire la signification des graphiques, des captures d’écran, des documents ou des photos
Combiner la compréhension de l’image avec des instructions de texte dans une seule invite

Le catalogue de modèles de Foundry contient de nombreux modèles modals, notamment :

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano : ces modèles GPT modélisés à usage général peuvent traiter du texte et des images ensemble. Elles sont couramment utilisées pour la description de l’image et les réponses aux questions visuelles, l’analyse de document et de capture d’écran, ainsi que l’interprétation du graphique et du diagramme.
Série GPT-5 (par exemple, GPT-5.1, GPT-5.2) : la famille GPT-5 disponible dans Foundry comprend des modèles modals avancés conçus pour les scénarios d’entreprise et d’agent. Ces modèles prennent en charge les entrées modales (y compris le texte et les images), les sorties structurées et l’utilisation d’outils, le raisonnement de contexte volumineux entre les modalités. Les modèles de série GPT-5 sont généralement utilisés dans les agents IA de niveau production et les applications modales complexes.

Foundry héberge également des modèles modals fournis par le partenaire dans son catalogue de modèles, y compris des modèles provenant de fournisseurs tels qu’Anthropic et d’autres qui prennent en charge la compréhension du texte et de l’image.

Analyse d’images dans le terrain de jeu Foundry

Note

Le portail Foundry dispose d’une interface utilisateur classique et d’une nouvelle interface utilisateur.

Dans le nouveau portail Microsoft Foundry, vous pouvez utiliser le terrain de jeu de modèles pour discuter avec un modèle déployé. Vous pouvez sélectionner un modèle compatible vision, charger des images et tester de manière interactive pour comprendre comment le modèle interprète les informations visuelles.

Par exemple, vous pouvez joindre un fichier image et obtenir le modèle modal (tel que gpt-4.1 mini) pour l’analyser et le décrire.

Une fois validées, les mêmes fonctionnalités sont accessibles par programmation à l’aide d’API, ce qui permet aux images d’être envoyées en même temps que les invites de texte dans le code de l’application.

Utilisation de l’API Azure OpenAI pour l’analyse d’images

Pour développer une application, vous devez passer du terrain de jeu Foundry au code. Dans un éditeur de code, vous pouvez écrire du code de votre application à l’aide de l’API Réponses OpenAI dans Foundry. L’API Réponses OpenAI est conçue pour les applications agentiques et prend en charge les entrées modales natives (y compris les images).

À un niveau élevé :

Une seule requête peut inclure une entrée de texte et une entrée d’image ensemble
Les images peuvent être fournies en tant qu’URL ou en tant que données d’image encodées en base64
Le modèle traite les deux entrées simultanément pour générer une réponse

D'un point de vue conceptuel, la structure de la requête est semblable à celle-ci :

Instruction de texte (par exemple, Quels objets sont visibles dans cette image ?)
Une ou plusieurs entrées d’image attachées à la même requête

Cette approche permet aux développeurs de créer des applications où les utilisateurs chargent des images et posent des questions sur eux en temps réel.

Utilisation du Kit de développement logiciel (SDK) Python Azure OpenAI

Vous pouvez utiliser une ressource Microsoft Foundry avec l’API OpenAI pour effectuer une analyse d’image, y compris l’envoi d’images dans des invites et l’obtention de réponses textuelles, à l’aide de l’API Réponses avec un déploiement de modèle compatible avec la vision.

Le Kit de développement logiciel (SDK) Python peut être installé dans le terminal Visual Studio Code à l’aide de :

pip install openai

Dans l’éditeur de code, nous pouvons créer un fichier Python, qui contient du code d’application. Il est important de noter que vous avez besoin de votre clé de ressource Foundry et de votre point de terminaison, ainsi que du nom de votre modèle déployé.

Note

Lorsque vous déployez un modèle dans Foundry, il a un nom de base ou d’origine et un nom de déploiement d’origine que vous lui attribuez. Foundry héberge le modèle déployé (par exemple, les modèles de classe GPT avec vision) et vous fournit un point de terminaison.

Dans l’exemple de code, vous créez le client, pointez-le sur votre point de terminaison et transmettez le nom de votre déploiement de modèle (le nom que vous avez donné au modèle) comme étant le MODEL_NAME.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

Exemple d’application cliente

Vous pouvez créer une application personnalisée qui utilise un modèle compatible vision pour analyser une image avec le Kit de développement logiciel (SDK) Python OpenAI. Par exemple, supposons que vous souhaitiez créer une application qui peut identifier les animaux photographiés sur Safari. Vous pouvez charger vos photos et créer un fichier Python dans votre éditeur de code.

Capture d’écran de l’image utilisée pour l’analyse d’image.

Vous pouvez ensuite écrire du code d’application qui utilise l’API OpenAI pour vous connecter au point de terminaison de votre modèle dans Foundry.

Le code de l’application doit charger les données d’image et obtenir une invite en langage naturel de la part d’un utilisateur. Pour envoyer l’entrée au modèle, vous devez créer un message en plusieurs parties qui inclut à la fois les données d’image et de texte. Le modèle peut répondre avec une sortie appropriée à partir du texte et de l’image contenus dans la requête.

Découvrez ensuite comment utiliser des modèles Foundry et le Kit de développement logiciel (SDK) Azure OpenAI pour la génération d’images.

Commentaires

Cette page a-t-elle été utile ?