Comment utiliser des modèles image à texte dans le catalogue de modèles

2025-05-07

Cet article explique comment utiliser des modèles image-à-texte dans le catalogue de modèles AI Foundry.

Les modèles image-à-texte sont conçus pour analyser des images et générer du texte descriptif en fonction de ce qu’ils voient. Considérez-les comme une combinaison d’une caméra et d’un écrivain. Vous fournissez une image en tant qu’entrée au modèle, et le modèle examine l’image et identifie différents éléments au sein de celui-ci, tels que des objets, des personnes, des scènes et même du texte. En fonction de son analyse, le modèle génère ensuite une description écrite de l’image, récapituisant ce qu’il voit.

Les modèles image-à-texte excelent dans différents cas d’usage tels que les fonctionnalités d’accessibilité, l’organisation de contenu (étiquetage), la création de descriptions visuelles de produit et éducatives et la numérisation du contenu via la reconnaissance optique de caractères (OCR). On peut dire que les modèles image-à-texte combler l’écart entre le contenu visuel et la langue écrite, rendant les informations plus accessibles et plus faciles à traiter dans différents contextes.

Conditions préalables

Pour utiliser des modèles d’image dans votre application, vous avez besoin des éléments suivants :

Un abonnement Azure avec un moyen de paiement valide. Les abonnements Azure gratuits ou d’essai ne fonctionnent pas. Si vous ne disposez pas d’un abonnement Azure, commencez par créer un compte Azure payant.
Un projet Azure AI Foundry.
Déploiement d’un modèle d’image sur Azure AI Foundry.
- Cet article utilise le déploiement d’un modèle Mistral OCR.
L’URL et la clé du point de terminaison.

Utiliser un modèle image à texte

Authentifiez-vous à l’aide d’une clé API. Tout d’abord, déployez le modèle pour générer l’URL du point de terminaison et une clé API pour vous authentifier auprès du service. Dans cet exemple, le point de terminaison et la clé sont des chaînes contenant l’URL du point de terminaison et la clé API. L’URL du point de terminaison d’API et la clé API se trouvent dans la page Déploiements + point de terminaison une fois le modèle déployé.

Si vous utilisez Bash :
```
export AZURE_API_KEY = "<your-api-key>"
```
Si vous êtes dans PowerShell :
```
$Env:AZURE_API_KEY = "<your-api-key>"
```
Si vous utilisez l'invite de commande Windows :
```
export AZURE_API_KEY = "<your-api-key>"
```

Exécutez un exemple de code de base. Différents modèles d’image acceptent différents formats de données. Dans cet exemple, Mistral OCR 25.03 prend uniquement en charge les données encodées en base64 ; l’URL du document ou l’URL de l’image n’est pas prise en charge. Collez le code suivant dans un shell.

curl --request POST \
  --url https://<your_serverless_endpoint>/v1/ocr \
  --header 'Authorization: <api_key>' \
  --header 'Content-Type: Application/json' \
  --data '{
  "model": "mistral-ocr-2503",
  "document": {
    "type": "document_url",
    "document_name": "test",
    "document_url": "data:application/pdf;base64,JVBER... <replace with your base64 encoded image data>"
  }
}'

Autres exemples de code pour Mistral OCR 25.03

Pour traiter les fichiers PDF :

# Read the pdf file
input_file_path="assets/2201.04234v3.pdf"
base64_value=$(base64 "$input_file_path")
input_base64_value="data:application/pdf;base64,${base64_value}"
# echo $input_base64_value
 
# Prepare JSON data
payload_body=$(cat <<EOF
{
    "model": "mistral-ocr-2503",
    "document": {
        "type": "document_url",
        "document_url": "$input_base64_value"
    },
    "include_image_base64": true
}
EOF
)

echo "$payload_body" | curl ${AZURE_AI_CHAT_ENDPOINT}/v1/ocr \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${AZURE_AI_CHAT_KEY}" \
  -d @- -o ocr_pdf_output.json

Pour traiter un fichier image :

# Read the image file
input_file_path="assets/receipt.png"
base64_value=$(base64 "$input_file_path")
input_base64_value="data:application/png;base64,${base64_value}"
# echo $input_base64_value
 
# Prepare JSON data
payload_body=$(cat <<EOF
{
    "model": "mistral-ocr-2503",
    "document": {
        "type": "image_url",
        "image_url": "$input_base64_value"
    },
    "include_image_base64": true
}
EOF
)
 
# Process the base64 data with ocr endpoint
echo "$payload_body" | curl ${AZURE_AI_CHAT_ENDPOINT}/v1/ocr \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${AZURE_AI_CHAT_KEY}" \
  -d @- -o ocr_png_output.json

Paramètres spécifiques au modèle

Certains modèles image à texte prennent uniquement en charge des formats de données spécifiques. Par exemple, Mistral OCR 25.03 nécessite base64 encoded image data pour son paramètre document_url. Le tableau suivant répertorie les formats de données pris en charge et non pris en charge pour les modèles d’image dans le catalogue de modèles.

Modèle	Soutenu	Non prise en charge
OCR Mistral 25.03	Données d’image encodées en base64	URL du document, URL de l’image

Comment utiliser des modèles de génération d’images sur Azure OpenAI

Partager via

Comment utiliser des modèles image à texte dans le catalogue de modèles

Conditions préalables

Utiliser un modèle image à texte

Autres exemples de code pour Mistral OCR 25.03

Paramètres spécifiques au modèle

Contenu connexe

Commentaires

Ressources supplémentaires