Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article explique comment utiliser des modèles image-à-texte dans le catalogue de modèles AI Foundry.
Les modèles image-à-texte sont conçus pour analyser des images et générer du texte descriptif en fonction de ce qu’ils voient. Considérez-les comme une combinaison d’une caméra et d’un écrivain. Vous fournissez une image en tant qu’entrée au modèle, et le modèle examine l’image et identifie différents éléments au sein de celui-ci, tels que des objets, des personnes, des scènes et même du texte. En fonction de son analyse, le modèle génère ensuite une description écrite de l’image, récapituisant ce qu’il voit.
Les modèles image-à-texte excelent dans différents cas d’usage tels que les fonctionnalités d’accessibilité, l’organisation de contenu (étiquetage), la création de descriptions visuelles de produit et éducatives et la numérisation du contenu via la reconnaissance optique de caractères (OCR). On peut dire que les modèles image-à-texte combler l’écart entre le contenu visuel et la langue écrite, rendant les informations plus accessibles et plus faciles à traiter dans différents contextes.
Conditions préalables
Pour utiliser des modèles d’image dans votre application, vous avez besoin des éléments suivants :
Un abonnement Azure avec un moyen de paiement valide. Les abonnements Azure gratuits ou d’essai ne fonctionnent pas. Si vous ne disposez pas d’un abonnement Azure, commencez par créer un compte Azure payant.
Déploiement d’un modèle d’image sur Azure AI Foundry.
- Cet article utilise le déploiement d’un modèle Mistral OCR.
L’URL et la clé du point de terminaison.
Utiliser un modèle image à texte
Authentifiez-vous à l’aide d’une clé API. Tout d’abord, déployez le modèle pour générer l’URL du point de terminaison et une clé API pour vous authentifier auprès du service. Dans cet exemple, le point de terminaison et la clé sont des chaînes contenant l’URL du point de terminaison et la clé API. L’URL du point de terminaison d’API et la clé API se trouvent dans la page Déploiements + point de terminaison une fois le modèle déployé.
Si vous utilisez Bash :
export AZURE_API_KEY = "<your-api-key>"
Si vous êtes dans PowerShell :
$Env:AZURE_API_KEY = "<your-api-key>"
Si vous utilisez l'invite de commande Windows :
export AZURE_API_KEY = "<your-api-key>"
Exécutez un exemple de code de base. Différents modèles d’image acceptent différents formats de données. Dans cet exemple, Mistral OCR 25.03 prend uniquement en charge les données encodées en base64 ; l’URL du document ou l’URL de l’image n’est pas prise en charge. Collez le code suivant dans un shell.
curl --request POST \ --url https://<your_serverless_endpoint>/v1/ocr \ --header 'Authorization: <api_key>' \ --header 'Content-Type: Application/json' \ --data '{ "model": "mistral-ocr-2503", "document": { "type": "document_url", "document_name": "test", "document_url": "data:application/pdf;base64,JVBER... <replace with your base64 encoded image data>" } }'
Autres exemples de code pour Mistral OCR 25.03
Pour traiter les fichiers PDF :
# Read the pdf file
input_file_path="assets/2201.04234v3.pdf"
base64_value=$(base64 "$input_file_path")
input_base64_value="data:application/pdf;base64,${base64_value}"
# echo $input_base64_value
# Prepare JSON data
payload_body=$(cat <<EOF
{
"model": "mistral-ocr-2503",
"document": {
"type": "document_url",
"document_url": "$input_base64_value"
},
"include_image_base64": true
}
EOF
)
echo "$payload_body" | curl ${AZURE_AI_CHAT_ENDPOINT}/v1/ocr \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${AZURE_AI_CHAT_KEY}" \
-d @- -o ocr_pdf_output.json
Pour traiter un fichier image :
# Read the image file
input_file_path="assets/receipt.png"
base64_value=$(base64 "$input_file_path")
input_base64_value="data:application/png;base64,${base64_value}"
# echo $input_base64_value
# Prepare JSON data
payload_body=$(cat <<EOF
{
"model": "mistral-ocr-2503",
"document": {
"type": "image_url",
"image_url": "$input_base64_value"
},
"include_image_base64": true
}
EOF
)
# Process the base64 data with ocr endpoint
echo "$payload_body" | curl ${AZURE_AI_CHAT_ENDPOINT}/v1/ocr \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${AZURE_AI_CHAT_KEY}" \
-d @- -o ocr_png_output.json
Paramètres spécifiques au modèle
Certains modèles image à texte prennent uniquement en charge des formats de données spécifiques. Par exemple, Mistral OCR 25.03 nécessite base64 encoded image data
pour son paramètre document_url
. Le tableau suivant répertorie les formats de données pris en charge et non pris en charge pour les modèles d’image dans le catalogue de modèles.
Modèle | Soutenu | Non prise en charge |
---|---|---|
OCR Mistral 25.03 | Données d’image encodées en base64 | URL du document, URL de l’image |