API Inférence de modèle Azure AI | Azure Machine Learning

Article
01/30/2025

L’inférence de modèle Azure AI est une API qui expose un ensemble commun de fonctionnalités pour les modèles fondamentaux et qui peut être utilisée par les développeurs pour consommer des prédictions d’un ensemble diversifié de modèles, de manière uniforme et cohérente. Les développeurs peuvent communiquer avec différents modèles déployés dans le portail Azure AI Foundry sans modifier le code sous-jacent qu’ils utilisent.

Important

Les éléments marqués (préversion) dans cet article sont actuellement en préversion publique. La préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail en production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Avantages

Les modèles fondamentaux, tels que les modèles de langage, ont fait des progrès remarquables ces dernières années. Ces progrès ont révolutionné différents domaines, notamment le traitement du langage naturel et la vision par ordinateur, et ont donné naissance à des applications telles que les chatbots, les assistants virtuels et les services de traduction de langue.

Bien que les modèles fondamentaux excellent dans des domaines spécifiques, ils ne disposent pas d’un ensemble de fonctionnalités uniforme. Certains modèles sont meilleurs dans une tâche donnée et même dans une même tâche, certains modèles pouvant aborder le problème d’une manière et d’autres modèles d’une manière différente. Les développeurs peuvent tirer parti de cette diversité en utilisant le bon modèle pour la bonne tâche, ce qui leur permet de :

Améliorer les performances dans une tâche en aval spécifique.
Utiliser des modèles plus efficaces pour des tâches plus simples.
Utiliser des modèles plus petits qui peuvent s’exécuter plus rapidement sur des tâches spécifiques.
Composer plusieurs modèles pour développer des expériences intelligentes.

Le fait de disposer d'un moyen uniforme de consommer les modèles fondamentaux permet aux développeurs de bénéficier de tous ces avantages sans sacrifier la portabilité ou modifier le code sous-jacent.

Disponibilité

L’API Inférence de modèle Azure AI est disponible dans les modèles suivants :

Modèles déployés sur les points de terminaison d’API serverless :

Famille de modèles Cohere Embed V3
Famille de modèles Cohere Command R
Famille de modèles Meta Llama 2 chat
Famille de modèles Meta Llama 3 instruct
Mistral-Small
Mistral-Large
Famille de modèles Jais
Famille de modèles Jamba
Famille de modèles Phi-3

Modèles déployés sur l’inférence managée :

Famille de modèles Meta Llama 3 instruct
Famille de modèles Phi-3
Famille de modèles Mixtral

L’API est compatible avec les modèles de déploiement Azure OpenAI.

Remarque

L’API d’inférence de modèle Azure AI est disponible dans l’inférence gérée (Managed Online Endpoints) pour les modèles déployés après le 24 juin 2024. Pour bénéficier de l’API, redéployez votre point de terminaison si le modèle a été déployé avant cette date.

Fonctionnalités

La section suivante décrit certaines des fonctionnalités que l’API expose. Pour obtenir une spécification complète de l’API, consultez la section de référence.

Modalités

L’API indique comment les développeurs peuvent consommer des prévisions pour les modalités suivantes :

Obtenir des informations: retourne les informations à propos du modèle déployé sous le point de terminaison.
Incorporations de texte : crée un vecteur d’incorporation qui représente le texte d’entrée.
Complétions de conversation : crée une réponse de modèle pour la conversation instantanée donnée.
Incorporations d’image : crée un vecteur d’incorporation qui représente le texte et l’image d’entrée.

Prise en charge du kit SDK d’inférence

Vous pouvez utiliser des clients d’inférence simplifiés dans le langage de votre choix pour consommer les prédictions des modèles exécutant l’API d’inférence de modèle Azure AI.

Installez le package azure-ai-inference à l’aide de votre gestionnaire de package, par exemple pip :

pip install azure-ai-inference

Vous pouvez ensuite utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer les complétions de conversation :

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Si vous utilisez un point de terminaison avec prise en charge de Entra ID, vous pouvez créer votre client comme suit :

import os
from azure.ai.inference import ChatCompletionsClient
from azure.identity import DefaultAzureCredential

client = ChatCompletionsClient(
    endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
    credential=DefaultAzureCredential(),
)

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

Installez le package @azure-rest/ai-inference à l’aide de npm :

npm install @azure-rest/ai-inference

Vous pouvez ensuite utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer les complétions de conversation :

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    process.env.AZUREAI_ENDPOINT_URL, 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

Pour le point de terminaison avec prise en charge de Microsoft Entra ID, vous pouvez créer votre client comme suit :

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { DefaultAzureCredential } from "@azure/identity";

const client = new ModelClient(
    process.env.AZUREAI_ENDPOINT_URL, 
    new DefaultAzureCredential()
);

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

Installez la bibliothèque d’inférence Azure AI avec la commande suivante :

dotnet add package Azure.AI.Inference --prerelease

Pour le point de terminaison prenant en charge Microsoft Entra ID (anciennement Azure Active Directory), installez le package Azure.Identity :

dotnet add package Azure.Identity

Importez les espaces de noms suivants :

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Vous pouvez ensuite utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer les complétions de conversation :

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

Pour le point de terminaison avec prise en charge de Microsoft Entra ID (anciennement Azure Active Directory) :

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
    new DefaultAzureCredential(includeInteractiveCredentials: true)
);

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

Utilisez la section de référence pour découvrir la conception de l’API et connaître les paramètres disponibles. Par exemple, la section de référence des complétions de conversation explique comment utiliser la route /chat/completions pour générer des prédictions basées sur des instructions dans un format de conversation :

Requête

POST /chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

Extensibilité

L’API Inférence de modèle Azure AI spécifie un ensemble de modalités et de paramètres auxquels les modèles peuvent souscrire. Toutefois, certains modèles peuvent avoir des fonctionnalités autres que celles indiquées par l’API. Dans ce cas, l’API permet au développeur de les transmettre en tant que paramètres supplémentaires dans la charge utile.

En définissant un en-tête extra-parameters: pass-through, l’API tente de transmettre directement un paramètre inconnu au modèle sous-jacent. Si le modèle peut gérer ce paramètre, la requête s’effectue.

L’exemple suivant montre une requête qui transmet le paramètre safe_prompt pris en charge par Mistral-Large, qui n’est pas spécifié dans l’API Inférence de modèle Azure AI :

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="How many languages are in the world?"),
    ],
    model_extras={
        "safe_mode": True
    }
)

print(response.choices[0].message.content)

Conseil

Lorsque vous utilisez le Kit de développement logiciel (SDK) d’inférence Azure AI, l’utilisation de model_extras configure pour vous la requête avec extra-parameters: pass-through automatiquement.

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "How many languages are in the world?" },
];

var response = await client.path("/chat/completions").post({
    "extra-parameters": "pass-through",
    body: {
        messages: messages,
        safe_mode: true
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("How many languages are in the world?")
    },
    AdditionalProperties = { { "logprobs", BinaryData.FromString("true") } },
};

response = client.Complete(requestOptions, extraParams: ExtraParameters.PassThrough);
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");

Requête

POST /chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json
extra-parameters: pass-through

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "text" },
    "safe_prompt": true
}

Remarque

La valeur par défaut de extra-parameters est error, qui retourne une erreur si un paramètre supplémentaire est indiqué dans la charge utile. Vous pouvez également définir extra-parameters: drop pour abandonner n’importe quel paramètre inconnu dans la requête. Utilisez cette fonctionnalité si vous envoyez des requêtes avec des paramètres supplémentaires que vous savez non pris en charge par le modèle, mais que vous voulez quand même que la requête s’effectue. L’indication du paramètre seed en est un exemple typique.

Modèles avec un ensemble hétéroclite de fonctionnalités

L’API Inférence de modèle Azure AI indique un ensemble général de fonctionnalités, mais chacun des modèles peut décider de les implémenter ou non. Une erreur spécifique est retournée dans les cas où le modèle ne peut pas prendre en charge un paramètre spécifique.

L’exemple suivant montre la réponse d’une requête de complétion de conversation indiquant le paramètre reponse_format et demandant une réponse au format JSON. Dans l’exemple, étant donné que le modèle ne prend pas en charge cette fonctionnalité, une erreur 422 est retournée à l’utilisateur.

import json
from azure.ai.inference.models import SystemMessage, UserMessage, ChatCompletionsResponseFormatJSON
from azure.core.exceptions import HttpResponseError

try:
    response = client.complete(
        messages=[
            SystemMessage(content="You are a helpful assistant."),
            UserMessage(content="How many languages are in the world?"),
        ],
        response_format=ChatCompletionsResponseFormatJSON()
    )
except HttpResponseError as ex:
    if ex.status_code == 422:
        response = json.loads(ex.response._content.decode('utf-8'))
        if isinstance(response, dict) and "detail" in response:
            for offending in response["detail"]:
                param = ".".join(offending["loc"])
                value = offending["input"]
                print(
                    f"Looks like the model doesn't support the parameter '{param}' with value '{value}'"
                )
    else:
        raise ex

try {
    var messages = [
        { role: "system", content: "You are a helpful assistant" },
        { role: "user", content: "How many languages are in the world?" },
    ];
    
    var response = await client.path("/chat/completions").post({
        body: {
            messages: messages,
            response_format: { type: "json_object" }
        }
    });
}
catch (error) {
    if (error.status_code == 422) {
        var response = JSON.parse(error.response._content)
        if (response.detail) {
            for (const offending of response.detail) {
                var param = offending.loc.join(".")
                var value = offending.input
                console.log(`Looks like the model doesn't support the parameter '${param}' with value '${value}'`)
            }
        }
    }
    else 
    {
        throw error
    }
}

try
{
    requestOptions = new ChatCompletionsOptions()
    {
        Messages = {
            new ChatRequestSystemMessage("You are a helpful assistant"),
            new ChatRequestUserMessage("How many languages are in the world?"),
        },
        ResponseFormat = new ChatCompletionsResponseFormatJSON()
    };

    response = client.Complete(requestOptions);
    Console.WriteLine(response.Value.Choices[0].Message.Content);
}
catch (RequestFailedException ex)
{
    if (ex.Status == 422)
    {
        Console.WriteLine($"Looks like the model doesn't support a parameter: {ex.Message}");
    }
    else
    {
        throw;
    }
}

Requête

POST /chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "json_object" },
}

Response

{
    "status": 422,
    "code": "parameter_not_supported",
    "detail": {
        "loc": [ "body", "response_format" ],
        "input": "json_object"
    },
    "message": "One of the parameters contain invalid values."
}

Conseil

Vous pouvez inspecter la propriété detail.loc pour comprendre l’emplacement du paramètre incriminé et detail.input pour voir la valeur qui a été transmise dans la requête.

Sécurité du contenu

L’API d’inférence du modèle Azure AI prend en charge Azure AI Sécurité du Contenu. Lorsque vous utilisez des déploiements avec Azure AI Sécurité du Contenu activé, les entrées et les sorties passent par un ensemble de modèles de classification visant à détecter et à empêcher la sortie de contenu dangereux. Le système de filtrage de contenu (préversion) détecte des catégories spécifiques de contenu potentiellement nuisible dans les requêtes d’entrée et les saisies semi-automatiques de sortie, et prend les mesures correspondantes.

L’exemple suivant montre la réponse d’une demande de saisie semi-automatique de conversation qui a déclenché la sécurité du contenu.

from azure.ai.inference.models import AssistantMessage, UserMessage, SystemMessage
from azure.core.exceptions import HttpResponseError

try:
    response = client.complete(
        messages=[
            SystemMessage(content="You are an AI assistant that helps people find information."),
            UserMessage(content="Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."),
        ]
    )

    print(response.choices[0].message.content)

except HttpResponseError as ex:
    if ex.status_code == 400:
        response = json.loads(ex.response._content.decode('utf-8'))
        if isinstance(response, dict) and "error" in response:
            print(f"Your request triggered an {response['error']['code']} error:\n\t {response['error']['message']}")
        else:
            raise ex
    else:
        raise ex

try {
    var messages = [
        { role: "system", content: "You are an AI assistant that helps people find information." },
        { role: "user", content: "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills." },
    ]

    var response = await client.path("/chat/completions").post({
        body: {
            messages: messages,
        }
    });
    
    console.log(response.body.choices[0].message.content)
}
catch (error) {
    if (error.status_code == 400) {
        var response = JSON.parse(error.response._content)
        if (response.error) {
            console.log(`Your request triggered an ${response.error.code} error:\n\t ${response.error.message}`)
        }
        else
        {
            throw error
        }
    }
}

try
{
    requestOptions = new ChatCompletionsOptions()
    {
        Messages = {
            new ChatRequestSystemMessage("You are an AI assistant that helps people find information."),
            new ChatRequestUserMessage(
                "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
            ),
        },
    };

    response = client.Complete(requestOptions);
    Console.WriteLine(response.Value.Choices[0].Message.Content);
}
catch (RequestFailedException ex)
{
    if (ex.ErrorCode == "content_filter")
    {
        Console.WriteLine($"Your query has trigger Azure Content Safeaty: {ex.Message}");
    }
    else
    {
        throw;
    }
}

Requête

POST /chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
    }
    ],
    "temperature": 0,
    "top_p": 1,
}

Response

{
    "status": 400,
    "code": "content_filter",
    "message": "The response was filtered",
    "param": "messages",
    "type": null
}

Mise en route

L’API d’inférence de modèle Azure AI est prise en charge dans certains modèles déployés en tant que points de terminaison d’API serverless et points de terminaison en ligne gérés. Déployez l’un des modèles pris en charge, puis utilisez exactement le même code pour consommer ses prédictions.

La bibliothèque de client azure-ai-inference effectue l’inférence ainsi que les complétions de conversation, pour les modèles IA déployés par Azure AI Foundry et Azure Machine Learning studio. Elle prend en charge les points de terminaison d’API serverless et les points de terminaison de calcul gérés (anciennement appelés points de terminaison en ligne gérés).

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

La bibliothèque de client @azure-rest/ai-inference effectue l’inférence ainsi que les complétions de conversation, pour les modèles IA déployés par Azure AI Foundry et Azure Machine Learning studio. Elle prend en charge les points de terminaison d’API serverless et les points de terminaison de calcul gérés (anciennement appelés points de terminaison en ligne gérés).

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

La bibliothèque de client Azure.Ai.Inference effectue l’inférence ainsi que les complétions de conversation, pour les modèles IA déployés par Azure AI Foundry et Azure Machine Learning studio. Elle prend en charge les points de terminaison d’API serverless et les points de terminaison de calcul gérés (anciennement appelés points de terminaison en ligne gérés).

Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

Partage via

API Inférence de modèle Azure AI | Azure Machine Learning

Avantages

Disponibilité

Fonctionnalités

Modalités

Prise en charge du kit SDK d’inférence

Extensibilité

Modèles avec un ensemble hétéroclite de fonctionnalités

Sécurité du contenu

Mise en route

Commentaires

Ressources supplémentaires