Inférence de modèle AZURE AI (préversion)

API d’inférence de modèle pour les modèles déployés dans Azure AI et Azure ML avec des points de terminaison serverless et auto-hébergés.

Ce connecteur est disponible dans les produits et régions suivants :

Service	Classe	Régions
Applications logiques	Norme	Toutes les régions Logic Apps , à l’exception des suivantes : - Régions Azure Government - régions de chine Azure - Us Department of Defense (DoD)

Contact
Nom	Microsoft
URL	https://support.microsoft.com

Métadonnées du connecteur
Éditeur	Microsoft Copilot Studio
Politique de confidentialité	https://privacy.microsoft.com/privacystatement
Website	https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Catégories	Intelligence artificielle

Le connecteur d’inférence Azure AI vous permet de vous connecter à votre propre modèle à partir d’azure ai studio

Prerequisites

Modèle déployé dans azure ai studio

Obtenir vos informations d’identification

Pour authentifier vos demandes d’API, vous aurez besoin du point de terminaison et de la clé API de votre modèle.

Accédez à votre ressource dans azure open ai studio -> déploiements. Ensuite, sous Point de terminaison, le point de terminaison est l’URI cible et la clé se trouve sous « Clé ».

Opérations prises en charge

Le connecteur d’inférence Azure AI prend en charge les opérations suivantes :

GetModelInfo : retourne les informations sur le modèle déployé sous le point de terminaison

Paramètres obligatoires :

* `api-version` - The version of the Inference API

GetChatCompletions - Crée une réponse de modèle pour la conversation de conversation donnée

Paramètres obligatoires :

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Valeurs par défaut des paramètres facultatifs :

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

Création d’une connexion

Le connecteur prend en charge les types d’authentification suivants :


Par défaut	Paramètres de création de connexion.	Toutes les régions	Non partageable

Faire défaut

Applicable : Toutes les régions

Paramètres de création de connexion.

Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.

Nom	Type	Description	Obligatoire
URL du point de terminaison de modèle Azure	ficelle	Entrez l’URL de votre point de terminaison de modèle déployé. Par exemple : https://resource.openai.azure.com	Vrai
Clé API	securestring	Autorisation pour cette API	Vrai

Limitations

Nom	Appels	Période de renouvellement
Appels d’API par connexion	100	60 secondes

Actions

Crée une réponse de modèle pour la conversation de conversation donnée	Crée une réponse de modèle pour la conversation donnée.
Retourne les informations sur le modèle déployé sous le point de terminaison	Retourne des informations sur le modèle IA. La méthode effectue un appel d’API REST vers l’itinéraire `/info` sur le point de terminaison donné. Cette méthode fonctionne uniquement lors de l’utilisation de l’API serverless ou du point de terminaison de calcul managé. Il ne fonctionnera pas pour le point de terminaison GitHub Models ou le point de terminaison Azure OpenAI.

Crée une réponse de modèle pour la conversation de conversation donnée

ID d’opération :: GetChatCompletions

Crée une réponse de modèle pour la conversation donnée.

Paramètres

Nom	Clé	Obligatoire	Type	Description
contenu	content	True	string	Contenu du message système.
role	role	True	string	Le rôle de l’auteur(-trice) des messages, dans ce cas `system`.
nom	name		string	Nom facultatif pour le participant. Fournit des informations sur le modèle pour différencier les participants du même rôle.
frequency_penalty	frequency_penalty		float	Valeur qui influence la probabilité de jetons générés apparaissant en fonction de leur fréquence cumulative dans le texte généré. Les valeurs positives rendent les jetons moins susceptibles d’apparaître à mesure que leur fréquence augmente et diminue la probabilité que le modèle répète les mêmes instructions verbatim. La plage prise en charge est [-2, 2].
ruisseau	stream		boolean	Valeur indiquant si les saisies semi-automatiques de conversation doivent être diffusées en continu pour cette demande.
pénalité_de_presence	presence_penalty		float	Valeur qui influence la probabilité de jetons générés apparaissant en fonction de leur présence existante dans le texte généré. Les valeurs positives rendent les jetons moins susceptibles d’apparaître lorsqu’ils existent déjà et augmentent la probabilité que le modèle génère de nouvelles rubriques. La plage prise en charge est [-2, 2].
température	temperature		float	Température d’échantillonnage à utiliser qui contrôle la créativité apparente des achèvements générés. Les valeurs plus élevées rendent la sortie plus aléatoire, tandis que les valeurs inférieures rendent les résultats plus concentrés et déterministes. Il n’est pas recommandé de modifier la température et les top_p pour la même demande d’achèvement que l’interaction de ces deux paramètres est difficile à prédire. La plage prise en charge est [0, 1].
top_p	top_p		float	Alternative à l’échantillonnage avec la température appelée échantillonnage de noyau. Cette valeur amène le modèle à prendre en compte les résultats des jetons avec la masse de probabilité fournie. Par exemple, une valeur de 0,15 entraîne uniquement la prise en compte des jetons comprenant les 15 premières% de masse de probabilité. Il n’est pas recommandé de modifier la température et les top_p pour la même demande d’achèvement que l’interaction de ces deux paramètres est difficile à prédire. La plage prise en charge est [0, 1].
nombre_maximal_de_tokens	max_tokens		integer	Nombre maximal de jetons à générer.
type	type		string	Doit être `text` ou `json_object`.
arrêter	stop		array of string	Collection de séquences textuelles qui terminent la génération d’achèvements.
type	type	True	string	Type de l’outil. Actuellement, seule `function` est prise en charge.
descriptif	description		string	Description de ce que fait la fonction. Le modèle utilise cette description lors de la sélection de la fonction et de l’interprétation de ses paramètres.
nom	name	True	string	Nom de la fonction à appeler.
paramètres	parameters		object	Paramètres acceptés par les fonctions, décrits sous la forme d’un objet de schéma JSON.
seed	seed		integer	S’il est spécifié, le système fera le meilleur effort pour échantillonner de façon déterministe, de sorte que les requêtes répétées avec la même valeur initiale et les mêmes paramètres doivent retourner le même résultat. Le déterminisme n’est pas garanti.
modèle	model		string	ID du modèle IA spécifique à utiliser, si plusieurs modèles sont disponibles sur le point de terminaison.
Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».	api-version	True	string	Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».
Contrôle ce qui se passe si un paramètre inconnu est passé.	extra-parameters		string	Contrôle ce qui se passe si des paramètres supplémentaires, non définis par l’API REST, sont transmis dans la charge utile de requête JSON. Cette opération définit l’en-tête `extra-parameters`de requête HTTP . erreur : le service s’affiche s’il a détecté des paramètres supplémentaires dans la charge utile de la requête. Il s’agit de la valeur par défaut du service. drop : le service ignore (supprime) les paramètres supplémentaires dans la charge utile de la requête. Il transmet uniquement les paramètres connus au modèle IA back-end. pass-through : le service transmet des paramètres supplémentaires au modèle IA back-end.
Nom du déploiement vers lequel vous souhaitez acheminer la requête.	azureml-model-deployment		string	Nom du déploiement vers lequel vous souhaitez acheminer la requête. Pris en charge pour les points de terminaison qui prennent en charge plusieurs déploiements.

Retours

Représente une réponse de complétion de conversation retournée par le modèle, en fonction de l’entrée fournie.

Corps: CreateChatCompletionResponse

Retourne les informations sur le modèle déployé sous le point de terminaison

ID d’opération :: GetModelInfo

Retourne des informations sur le modèle IA. La méthode effectue un appel d’API REST vers l’itinéraire /info sur le point de terminaison donné. Cette méthode fonctionne uniquement lors de l’utilisation de l’API serverless ou du point de terminaison de calcul managé. Il ne fonctionnera pas pour le point de terminaison GitHub Models ou le point de terminaison Azure OpenAI.

Paramètres

Nom	Clé	Obligatoire	Type	Description
Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».	api-version	True	string	Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».
Nom du déploiement vers lequel vous souhaitez acheminer la requête.	azureml-model-deployment		string	Nom du déploiement vers lequel vous souhaitez acheminer la requête. Pris en charge pour les points de terminaison qui prennent en charge plusieurs déploiements.

Retours

Représente des informations de base sur le modèle IA.

Corps: ModelInfo

Définitions

ModelInfo

Représente des informations de base sur le modèle IA.

Nom	Chemin d’accès	Type	Description
model_name	model_name	string	Nom du modèle IA.
	model_type	string	Type du modèle IA. Identificateur unique du profil.
model_provider_name	model_provider_name	string	Nom du fournisseur de modèles.
capabilities	capabilities

ChatCompletionMessageToolCalls

Appels d’outils générés par le modèle, par exemple les appels de fonction.

Nom	Chemin d’accès	Type	Description
Objets		ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Nom	Chemin d’accès	Type	Description
pièce d'identité	id	string	ID de l’appel de l’outil.
type	type	string	Type de l’outil. Actuellement, seule `function` est prise en charge.
nom	function.name	string	Nom de la fonction à appeler.
arguments	function.arguments	string	Arguments à utiliser pour appeler la fonction, tels que générés par le modèle au format JSON. Notez que le modèle ne génère pas toujours de JSON valide et peut halluciner des paramètres non définis par votre schéma de fonction. Validez les arguments dans votre code avant d’appeler votre fonction.

ChatCompletionResponseMessage

Message de complétion de conversation généré par le modèle.

Nom	Chemin d’accès	Type	Description
contenu	content	string	Contenu du message.
tool_calls	tool_calls	ChatCompletionMessageToolCalls	Appels d’outils générés par le modèle, par exemple les appels de fonction.
role	role	string	Rôle de l’auteur de ce message.

CreateChatCompletionResponse

Représente une réponse de complétion de conversation retournée par le modèle, en fonction de l’entrée fournie.

Nom	Chemin d’accès	Type	Description
pièce d'identité	id	string	Identificateur unique associé à cette réponse de saisie semi-automatique de conversation.
choix	choices	array of object	Liste des choix de saisie semi-automatique de conversation. Peut être plusieurs si `n` est supérieur à 1.
	choices.finish_reason	string	Raison pour laquelle le modèle a cessé de générer des jetons. Cela sera `stop` si le modèle atteint un point d’arrêt naturel ou une séquence d’arrêt fournie,`length` si le nombre maximal de jetons spécifié dans la demande a été atteint,`content_filter` si le contenu a été omis en raison d’un indicateur de nos filtres de contenu,`tool_calls` si le modèle a appelé un outil.
content_filter_result	choices.content_filter_result
index	choices.index	integer	Index ordonné associé à ce choix de saisie semi-automatique de conversation.
Message	choices.message	ChatCompletionResponseMessage	Message de complétion de conversation généré par le modèle.
créé	created	integer	Le premier horodatage associé à l’activité de génération pour cette réponse d’achèvement, représenté sous forme de secondes depuis le début de l’époque Unix de 00:00 le 1er janvier 1970.
modèle	model	string	Modèle utilisé pour la complétion de conversation.
objet	object	string	Le type d’objet, qui est toujours `chat.completion`.
usage	usage	CompletionUsage	Représentation du nombre de jetons traités pour une demande d’achèvement. Les nombres prennent en compte tous les jetons des invites, des choix, des alternatives de choix, des générations best_of et d’autres consommateurs.

CompletionUsage

Représentation du nombre de jetons traités pour une demande d’achèvement. Les nombres prennent en compte tous les jetons des invites, des choix, des alternatives de choix, des générations best_of et d’autres consommateurs.

Nom	Chemin d’accès	Type	Description
completion_tokens	completion_tokens	integer	Nombre de jetons générés sur toutes les émissions d’achèvement.
prompt_tokens	prompt_tokens	integer	Nombre de jetons dans les invites fournies pour la demande d’achèvement.
total_tokens	total_tokens	integer	Nombre total de jetons traités pour la demande et la réponse de saisie semi-automatique.

Partager via

Inférence de modèle AZURE AI (préversion)

Prerequisites

Obtenir vos informations d’identification

Opérations prises en charge

Création d’une connexion

Faire défaut

Limitations

Actions

Crée une réponse de modèle pour la conversation de conversation donnée

Paramètres

Retours

Retourne les informations sur le modèle déployé sous le point de terminaison

Paramètres

Retours

Définitions

ModelInfo

ChatCompletionMessageToolCalls

ChatCompletionMessageToolCall

ChatCompletionResponseMessage

CreateChatCompletionResponse

CompletionUsage