Partager via


Inférence de modèle AZURE AI (préversion)

API d’inférence de modèle pour les modèles déployés dans Azure AI et Azure ML avec des points de terminaison serverless et auto-hébergés.

Ce connecteur est disponible dans les produits et régions suivants :

Service Classe Régions
Applications logiques Norme Toutes les régions Logic Apps , à l’exception des suivantes :
     - Régions Azure Government
     - régions de chine Azure
     - Us Department of Defense (DoD)
Contact
Nom Microsoft
URL https://support.microsoft.com
Métadonnées du connecteur
Éditeur Microsoft Copilot Studio
Politique de confidentialité https://privacy.microsoft.com/privacystatement
Website https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Catégories Intelligence artificielle

Le connecteur d’inférence Azure AI vous permet de vous connecter à votre propre modèle à partir d’azure ai studio

Prerequisites

  • Modèle déployé dans azure ai studio

Obtenir vos informations d’identification

Pour authentifier vos demandes d’API, vous aurez besoin du point de terminaison et de la clé API de votre modèle.

Accédez à votre ressource dans azure open ai studio -> déploiements. Ensuite, sous Point de terminaison, le point de terminaison est l’URI cible et la clé se trouve sous « Clé ».

Opérations prises en charge

Le connecteur d’inférence Azure AI prend en charge les opérations suivantes :

  1. GetModelInfo : retourne les informations sur le modèle déployé sous le point de terminaison

Paramètres obligatoires :

* `api-version` - The version of the Inference API
  1. GetChatCompletions - Crée une réponse de modèle pour la conversation de conversation donnée

Paramètres obligatoires :

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Valeurs par défaut des paramètres facultatifs :

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

Création d’une connexion

Le connecteur prend en charge les types d’authentification suivants :

Par défaut Paramètres de création de connexion. Toutes les régions Non partageable

Faire défaut

Applicable : Toutes les régions

Paramètres de création de connexion.

Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.

Nom Type Description Obligatoire
URL du point de terminaison de modèle Azure ficelle Entrez l’URL de votre point de terminaison de modèle déployé. Par exemple : https://resource.openai.azure.com Vrai
Clé API securestring Autorisation pour cette API Vrai

Limitations

Nom Appels Période de renouvellement
Appels d’API par connexion 100 60 secondes

Actions

Crée une réponse de modèle pour la conversation de conversation donnée

Crée une réponse de modèle pour la conversation donnée.

Retourne les informations sur le modèle déployé sous le point de terminaison

Retourne des informations sur le modèle IA. La méthode effectue un appel d’API REST vers l’itinéraire /info sur le point de terminaison donné. Cette méthode fonctionne uniquement lors de l’utilisation de l’API serverless ou du point de terminaison de calcul managé. Il ne fonctionnera pas pour le point de terminaison GitHub Models ou le point de terminaison Azure OpenAI.

Crée une réponse de modèle pour la conversation de conversation donnée

Crée une réponse de modèle pour la conversation donnée.

Paramètres

Nom Clé Obligatoire Type Description
contenu
content True string

Contenu du message système.

role
role True string

Le rôle de l’auteur(-trice) des messages, dans ce cas system.

nom
name string

Nom facultatif pour le participant. Fournit des informations sur le modèle pour différencier les participants du même rôle.

frequency_penalty
frequency_penalty float

Valeur qui influence la probabilité de jetons générés apparaissant en fonction de leur fréquence cumulative dans le texte généré. Les valeurs positives rendent les jetons moins susceptibles d’apparaître à mesure que leur fréquence augmente et diminue la probabilité que le modèle répète les mêmes instructions verbatim. La plage prise en charge est [-2, 2].

ruisseau
stream boolean

Valeur indiquant si les saisies semi-automatiques de conversation doivent être diffusées en continu pour cette demande.

pénalité_de_presence
presence_penalty float

Valeur qui influence la probabilité de jetons générés apparaissant en fonction de leur présence existante dans le texte généré. Les valeurs positives rendent les jetons moins susceptibles d’apparaître lorsqu’ils existent déjà et augmentent la probabilité que le modèle génère de nouvelles rubriques. La plage prise en charge est [-2, 2].

température
temperature float

Température d’échantillonnage à utiliser qui contrôle la créativité apparente des achèvements générés. Les valeurs plus élevées rendent la sortie plus aléatoire, tandis que les valeurs inférieures rendent les résultats plus concentrés et déterministes. Il n’est pas recommandé de modifier la température et les top_p pour la même demande d’achèvement que l’interaction de ces deux paramètres est difficile à prédire. La plage prise en charge est [0, 1].

top_p
top_p float

Alternative à l’échantillonnage avec la température appelée échantillonnage de noyau. Cette valeur amène le modèle à prendre en compte les résultats des jetons avec la masse de probabilité fournie. Par exemple, une valeur de 0,15 entraîne uniquement la prise en compte des jetons comprenant les 15 premières% de masse de probabilité. Il n’est pas recommandé de modifier la température et les top_p pour la même demande d’achèvement que l’interaction de ces deux paramètres est difficile à prédire. La plage prise en charge est [0, 1].

nombre_maximal_de_tokens
max_tokens integer

Nombre maximal de jetons à générer.

type
type string

Doit être text ou json_object.

arrêter
stop array of string

Collection de séquences textuelles qui terminent la génération d’achèvements.

type
type True string

Type de l’outil. Actuellement, seule function est prise en charge.

descriptif
description string

Description de ce que fait la fonction. Le modèle utilise cette description lors de la sélection de la fonction et de l’interprétation de ses paramètres.

nom
name True string

Nom de la fonction à appeler.

paramètres
parameters object

Paramètres acceptés par les fonctions, décrits sous la forme d’un objet de schéma JSON.

seed
seed integer

S’il est spécifié, le système fera le meilleur effort pour échantillonner de façon déterministe, de sorte que les requêtes répétées avec la même valeur initiale et les mêmes paramètres doivent retourner le même résultat. Le déterminisme n’est pas garanti.

modèle
model string

ID du modèle IA spécifique à utiliser, si plusieurs modèles sont disponibles sur le point de terminaison.

Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».
api-version True string

Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».

Contrôle ce qui se passe si un paramètre inconnu est passé.
extra-parameters string

Contrôle ce qui se passe si des paramètres supplémentaires, non définis par l’API REST, sont transmis dans la charge utile de requête JSON. Cette opération définit l’en-tête extra-parametersde requête HTTP . erreur : le service s’affiche s’il a détecté des paramètres supplémentaires dans la charge utile de la requête. Il s’agit de la valeur par défaut du service. drop : le service ignore (supprime) les paramètres supplémentaires dans la charge utile de la requête. Il transmet uniquement les paramètres connus au modèle IA back-end. pass-through : le service transmet des paramètres supplémentaires au modèle IA back-end.

Nom du déploiement vers lequel vous souhaitez acheminer la requête.
azureml-model-deployment string

Nom du déploiement vers lequel vous souhaitez acheminer la requête. Pris en charge pour les points de terminaison qui prennent en charge plusieurs déploiements.

Retours

Représente une réponse de complétion de conversation retournée par le modèle, en fonction de l’entrée fournie.

Retourne les informations sur le modèle déployé sous le point de terminaison

Retourne des informations sur le modèle IA. La méthode effectue un appel d’API REST vers l’itinéraire /info sur le point de terminaison donné. Cette méthode fonctionne uniquement lors de l’utilisation de l’API serverless ou du point de terminaison de calcul managé. Il ne fonctionnera pas pour le point de terminaison GitHub Models ou le point de terminaison Azure OpenAI.

Paramètres

Nom Clé Obligatoire Type Description
Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».
api-version True string

Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».

Nom du déploiement vers lequel vous souhaitez acheminer la requête.
azureml-model-deployment string

Nom du déploiement vers lequel vous souhaitez acheminer la requête. Pris en charge pour les points de terminaison qui prennent en charge plusieurs déploiements.

Retours

Représente des informations de base sur le modèle IA.

Corps
ModelInfo

Définitions

ModelInfo

Représente des informations de base sur le modèle IA.

Nom Chemin d’accès Type Description
model_name
model_name string

Nom du modèle IA.

model_type string

Type du modèle IA. Identificateur unique du profil.

model_provider_name
model_provider_name string

Nom du fournisseur de modèles.

capabilities
capabilities

ChatCompletionMessageToolCalls

Appels d’outils générés par le modèle, par exemple les appels de fonction.

Nom Chemin d’accès Type Description
Objets
ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Nom Chemin d’accès Type Description
pièce d'identité
id string

ID de l’appel de l’outil.

type
type string

Type de l’outil. Actuellement, seule function est prise en charge.

nom
function.name string

Nom de la fonction à appeler.

arguments
function.arguments string

Arguments à utiliser pour appeler la fonction, tels que générés par le modèle au format JSON. Notez que le modèle ne génère pas toujours de JSON valide et peut halluciner des paramètres non définis par votre schéma de fonction. Validez les arguments dans votre code avant d’appeler votre fonction.

ChatCompletionResponseMessage

Message de complétion de conversation généré par le modèle.

Nom Chemin d’accès Type Description
contenu
content string

Contenu du message.

tool_calls
tool_calls ChatCompletionMessageToolCalls

Appels d’outils générés par le modèle, par exemple les appels de fonction.

role
role string

Rôle de l’auteur de ce message.

CreateChatCompletionResponse

Représente une réponse de complétion de conversation retournée par le modèle, en fonction de l’entrée fournie.

Nom Chemin d’accès Type Description
pièce d'identité
id string

Identificateur unique associé à cette réponse de saisie semi-automatique de conversation.

choix
choices array of object

Liste des choix de saisie semi-automatique de conversation. Peut être plusieurs si n est supérieur à 1.

choices.finish_reason string

Raison pour laquelle le modèle a cessé de générer des jetons. Cela sera stop si le modèle atteint un point d’arrêt naturel ou une séquence d’arrêt fournie,length si le nombre maximal de jetons spécifié dans la demande a été atteint,content_filter si le contenu a été omis en raison d’un indicateur de nos filtres de contenu,tool_calls si le modèle a appelé un outil.

content_filter_result
choices.content_filter_result
index
choices.index integer

Index ordonné associé à ce choix de saisie semi-automatique de conversation.

Message
choices.message ChatCompletionResponseMessage

Message de complétion de conversation généré par le modèle.

créé
created integer

Le premier horodatage associé à l’activité de génération pour cette réponse d’achèvement, représenté sous forme de secondes depuis le début de l’époque Unix de 00:00 le 1er janvier 1970.

modèle
model string

Modèle utilisé pour la complétion de conversation.

objet
object string

Le type d’objet, qui est toujours chat.completion.

usage
usage CompletionUsage

Représentation du nombre de jetons traités pour une demande d’achèvement. Les nombres prennent en compte tous les jetons des invites, des choix, des alternatives de choix, des générations best_of et d’autres consommateurs.

CompletionUsage

Représentation du nombre de jetons traités pour une demande d’achèvement. Les nombres prennent en compte tous les jetons des invites, des choix, des alternatives de choix, des générations best_of et d’autres consommateurs.

Nom Chemin d’accès Type Description
completion_tokens
completion_tokens integer

Nombre de jetons générés sur toutes les émissions d’achèvement.

prompt_tokens
prompt_tokens integer

Nombre de jetons dans les invites fournies pour la demande d’achèvement.

total_tokens
total_tokens integer

Nombre total de jetons traités pour la demande et la réponse de saisie semi-automatique.