Azure AI Model Inference REST API reference

L’inférence des modèles IA Azure est une API qui expose un ensemble commun de capacités pour les modèles fondamentaux et qui peut être utilisée par les développeurs pour consommer des prédictions issues d’un ensemble diversifié de modèles de manière uniforme et cohérente. Les développeurs peuvent communiquer avec différents modèles déployés dans le portail Azure AI Foundry sans modifier le code sous-jacent qu’ils utilisent.

Avantages

Les modèles fondamentaux, tels que les modèles de langage, ont effectivement réalisé des progrès remarquables ces dernières années. Ces avancées ont révolutionné divers domaines, notamment le traitement du langage naturel et la vision par ordinateur, et elles ont permis des applications telles que les chatbots, les assistants virtuels et les services de traduction linguistique.

Bien que les modèles fondamentaux excellent dans des domaines spécifiques, ils manquent d’un ensemble uniforme de capacités. Certains modèles sont meilleurs pour une tâche spécifique et même pour la même tâche, certains modèles peuvent aborder le problème d’une manière tandis que d’autres d’une autre. Les développeurs peuvent bénéficier de cette diversité en utilisant le bon modèle pour le bon travail , leur permettant ainsi de :

Améliorez les performances dans une tâche spécifique en aval.
Utilisez des modèles plus efficaces pour des tâches plus simples.
Utilisez des modèles plus petits qui peuvent fonctionner plus vite sur des tâches spécifiques.
Composez plusieurs modèles pour développer des expériences intelligentes.

Disposer d’une manière uniforme de consommer les modèles fondamentaux permet aux développeurs de réaliser tous ces avantages sans sacrifier la portabilité ni modifier le code sous-jacent.

Prise en charge du SDK d’inférence

Le package Azure AI Inference vous permet de consommer tous les modèles supportant l’API d’inférence de modèles Azure AI et de les changer facilement. Le package Azure AI Inference fait partie du SDK Azure AI Foundry.

Language	Documentation	Package	Examples
C#	Référence	azure-ai-inférence (NuGet)	Exemples C#
Java	Référence	Azure-AI-inférence (Maven)	Exemples Java
Javascript	Référence	@azure/inférence IA (NPM)	Exemples de JavaScript
Python	Référence	Azure-ai-inférence (PyPi)	Exemples Python

Capacités

La section suivante décrit certaines des capacités que l’API expose :

Modalities

L’API indique comment les développeurs peuvent consommer les prédictions pour les modalités suivantes :

Obtenir des infos : Retourne les informations sur le modèle déployé sous le point de terminaison.
Encastrements de texte : Crée un vecteur d’immersion représentant le texte d’entrée.
Complétions de discussion : Crée une réponse modèle pour la conversation donnée.
Incorporations d’images : Crée un vecteur d’inclusion représentant le texte d’entrée et l’image.

Extensibilité

L’API d’inférence de modèles IA d’Azure spécifie un ensemble de modalités et de paramètres auxquels les modèles peuvent s’abonner. Cependant, certains modèles peuvent disposer de capacités supplémentaires par rapport à celles indiquées par l’API. Dans ces cas, l’API permet au développeur de les transmettre comme paramètres supplémentaires dans la charge utile.

En définissant un en-tête extra-parameters: pass-through, l’API tentera de transmettre tout paramètre inconnu directement au modèle sous-jacent. Si le modèle peut gérer ce paramètre, la requête est terminée.

L'exemple suivant montre une requête passant le paramètre safe_prompt supporté par Mistral-Large, qui n'est pas spécifié dans l'API d'inférence de modèles IA Azure.

Requête

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json
extra-parameters: pass-through

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "text" },
    "safe_prompt": true
}

Note

La valeur par défaut de extra-parameters est error : qui renvoie une erreur si un paramètre supplémentaire est indiqué dans la charge utile. Sinon, vous pouvez régler extra-parameters: drop pour supprimer n’importe quel paramètre inconnu dans la requête. Utilisez cette fonctionnalité au cas où vous envoyiez des requêtes avec des paramètres supplémentaires que vous savez que le modèle ne supportera pas, mais que vous souhaitez quand même que la requête soit complétée. Un exemple typique de cela est le paramètre d’indication seed .

Modèles avec un ensemble de capacités disparates

L’API d’inférence des modèles IA d’Azure indique un ensemble général de capacités mais chacun des modèles peut décider de les implémenter ou non. Une erreur spécifique est renvoyée dans les cas où le modèle ne peut pas supporter un paramètre spécifique.

L’exemple suivant montre la réponse à une demande de fin de chat indiquant le paramètre reponse_format et demandant une réponse au JSON format. Dans l’exemple, puisque le modèle ne prend pas en charge cette capacité, une erreur 422 est renvoyée à l’utilisateur.

Requête

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "json_object" },
}

Réponse

{
    "status": 422,
    "code": "parameter_not_supported",
    "detail": {
        "loc": [ "body", "response_format" ],
        "input": "json_object"
    },
    "message": "One of the parameters contain invalid values."
}

Tip

Vous pouvez inspecter la propriété details.loc pour comprendre l’emplacement du paramètre fautif et details.input voir la valeur transmise dans la requête.

Sécurité du contenu

L’API d’inférence des modèles IA Azure prend en charge Azure AI Sécurité du Contenu. Lors des déploiements avec Azure AI Sécurité du Contenu activé, les entrées et sorties passent par un ensemble de modèles de classification visant à détecter et prévenir la sortie de contenus nuisibles. Le système de filtrage de contenu (aperçu) détecte et agit sur des catégories spécifiques de contenu potentiellement nuisible à la fois dans les prompts d’entrée et dans les complétions de sortie.

L’exemple suivant montre la réponse à une demande de fin de chat qui a déclenché la sécurité du contenu.

Requête

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
    }
    ],
    "temperature": 0,
    "top_p": 1,
}

Réponse

{
    "status": 400,
    "code": "content_filter",
    "message": "The response was filtered",
    "param": "messages",
    "type": null
}

Premiers pas

L’API d’inférence des modèles IA Azure est disponible sur les ressources Azure AI Services. Vous pouvez commencer comme n’importe quel autre produit Azure où vous créer et configurer votre ressource pour Azure inférence de modèle IA, ou instance du service, dans votre abonnement Azure. Vous pouvez créer autant de ressources que nécessaire et les configurer indépendamment au cas où vous auriez plusieurs équipes avec des besoins différents.

Une fois que vous avez créé une ressource Azure AI Services, vous devez déployer un modèle avant de pouvoir commencer à effectuer des appels API. Par défaut, aucun modèle n’est disponible, donc vous pouvez choisir par lesquels commencer. Consultez le tutoriel Créez votre premier déploiement de modèle dans Azure inférence de modèle IA.

Last updated on 2026-06-12

Azure AI Model Inference REST API reference

Avantages

Prise en charge du SDK d’inférence

Capacités

Modalities

Extensibilité

Modèles avec un ensemble de capacités disparates

Sécurité du contenu

Premiers pas

Ressources supplémentaires