Inférence de modèle AZURE AI (préversion)
API d’inférence de modèle pour les modèles déployés dans Azure AI et Azure ML avec des points de terminaison serverless et auto-hébergés.
Ce connecteur est disponible dans les produits et régions suivants :
| Service | Classe | Régions |
|---|---|---|
| Applications logiques | Norme | Toutes les régions Logic Apps , à l’exception des suivantes : - Régions Azure Government - régions de chine Azure - Us Department of Defense (DoD) |
| Contact | |
|---|---|
| Nom | Microsoft |
| URL | https://support.microsoft.com |
| Métadonnées du connecteur | |
|---|---|
| Éditeur | Microsoft Copilot Studio |
| Politique de confidentialité | https://privacy.microsoft.com/privacystatement |
| Website | https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api |
| Catégories | Intelligence artificielle |
Le connecteur d’inférence Azure AI vous permet de vous connecter à votre propre modèle à partir d’azure ai studio
Prerequisites
- Modèle déployé dans azure ai studio
Obtenir vos informations d’identification
Pour authentifier vos demandes d’API, vous aurez besoin du point de terminaison et de la clé API de votre modèle.
Accédez à votre ressource dans azure open ai studio -> déploiements. Ensuite, sous Point de terminaison, le point de terminaison est l’URI cible et la clé se trouve sous « Clé ».
Opérations prises en charge
Le connecteur d’inférence Azure AI prend en charge les opérations suivantes :
- GetModelInfo : retourne les informations sur le modèle déployé sous le point de terminaison
Paramètres obligatoires :
* `api-version` - The version of the Inference API
- GetChatCompletions - Crée une réponse de modèle pour la conversation de conversation donnée
Paramètres obligatoires :
* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models
Valeurs par défaut des paramètres facultatifs :
* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1
Création d’une connexion
Le connecteur prend en charge les types d’authentification suivants :
| Par défaut | Paramètres de création de connexion. | Toutes les régions | Non partageable |
Faire défaut
Applicable : Toutes les régions
Paramètres de création de connexion.
Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.
| Nom | Type | Description | Obligatoire |
|---|---|---|---|
| URL du point de terminaison de modèle Azure | ficelle | Entrez l’URL de votre point de terminaison de modèle déployé. Par exemple : https://resource.openai.azure.com | Vrai |
| Clé API | securestring | Autorisation pour cette API | Vrai |
Limitations
| Nom | Appels | Période de renouvellement |
|---|---|---|
| Appels d’API par connexion | 100 | 60 secondes |
Actions
| Crée une réponse de modèle pour la conversation de conversation donnée |
Crée une réponse de modèle pour la conversation donnée. |
| Retourne les informations sur le modèle déployé sous le point de terminaison |
Retourne des informations sur le modèle IA. La méthode effectue un appel d’API REST vers l’itinéraire |
Crée une réponse de modèle pour la conversation de conversation donnée
Crée une réponse de modèle pour la conversation donnée.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
contenu
|
content | True | string |
Contenu du message système. |
|
role
|
role | True | string |
Le rôle de l’auteur(-trice) des messages, dans ce cas |
|
nom
|
name | string |
Nom facultatif pour le participant. Fournit des informations sur le modèle pour différencier les participants du même rôle. |
|
|
frequency_penalty
|
frequency_penalty | float |
Valeur qui influence la probabilité de jetons générés apparaissant en fonction de leur fréquence cumulative dans le texte généré. Les valeurs positives rendent les jetons moins susceptibles d’apparaître à mesure que leur fréquence augmente et diminue la probabilité que le modèle répète les mêmes instructions verbatim. La plage prise en charge est [-2, 2]. |
|
|
ruisseau
|
stream | boolean |
Valeur indiquant si les saisies semi-automatiques de conversation doivent être diffusées en continu pour cette demande. |
|
|
pénalité_de_presence
|
presence_penalty | float |
Valeur qui influence la probabilité de jetons générés apparaissant en fonction de leur présence existante dans le texte généré. Les valeurs positives rendent les jetons moins susceptibles d’apparaître lorsqu’ils existent déjà et augmentent la probabilité que le modèle génère de nouvelles rubriques. La plage prise en charge est [-2, 2]. |
|
|
température
|
temperature | float |
Température d’échantillonnage à utiliser qui contrôle la créativité apparente des achèvements générés. Les valeurs plus élevées rendent la sortie plus aléatoire, tandis que les valeurs inférieures rendent les résultats plus concentrés et déterministes. Il n’est pas recommandé de modifier la température et les top_p pour la même demande d’achèvement que l’interaction de ces deux paramètres est difficile à prédire. La plage prise en charge est [0, 1]. |
|
|
top_p
|
top_p | float |
Alternative à l’échantillonnage avec la température appelée échantillonnage de noyau. Cette valeur amène le modèle à prendre en compte les résultats des jetons avec la masse de probabilité fournie. Par exemple, une valeur de 0,15 entraîne uniquement la prise en compte des jetons comprenant les 15 premières% de masse de probabilité. Il n’est pas recommandé de modifier la température et les top_p pour la même demande d’achèvement que l’interaction de ces deux paramètres est difficile à prédire. La plage prise en charge est [0, 1]. |
|
|
nombre_maximal_de_tokens
|
max_tokens | integer |
Nombre maximal de jetons à générer. |
|
|
type
|
type | string |
Doit être |
|
|
arrêter
|
stop | array of string |
Collection de séquences textuelles qui terminent la génération d’achèvements. |
|
|
type
|
type | True | string |
Type de l’outil. Actuellement, seule |
|
descriptif
|
description | string |
Description de ce que fait la fonction. Le modèle utilise cette description lors de la sélection de la fonction et de l’interprétation de ses paramètres. |
|
|
nom
|
name | True | string |
Nom de la fonction à appeler. |
|
paramètres
|
parameters | object |
Paramètres acceptés par les fonctions, décrits sous la forme d’un objet de schéma JSON. |
|
|
seed
|
seed | integer |
S’il est spécifié, le système fera le meilleur effort pour échantillonner de façon déterministe, de sorte que les requêtes répétées avec la même valeur initiale et les mêmes paramètres doivent retourner le même résultat. Le déterminisme n’est pas garanti. |
|
|
modèle
|
model | string |
ID du modèle IA spécifique à utiliser, si plusieurs modèles sont disponibles sur le point de terminaison. |
|
|
Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».
|
api-version | True | string |
Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ». |
|
Contrôle ce qui se passe si un paramètre inconnu est passé.
|
extra-parameters | string |
Contrôle ce qui se passe si des paramètres supplémentaires, non définis par l’API REST, sont transmis dans la charge utile de requête JSON. Cette opération définit l’en-tête |
|
|
Nom du déploiement vers lequel vous souhaitez acheminer la requête.
|
azureml-model-deployment | string |
Nom du déploiement vers lequel vous souhaitez acheminer la requête. Pris en charge pour les points de terminaison qui prennent en charge plusieurs déploiements. |
Retours
Représente une réponse de complétion de conversation retournée par le modèle, en fonction de l’entrée fournie.
Retourne les informations sur le modèle déployé sous le point de terminaison
Retourne des informations sur le modèle IA. La méthode effectue un appel d’API REST vers l’itinéraire /info sur le point de terminaison donné. Cette méthode fonctionne uniquement lors de l’utilisation de l’API serverless ou du point de terminaison de calcul managé. Il ne fonctionnera pas pour le point de terminaison GitHub Models ou le point de terminaison Azure OpenAI.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ».
|
api-version | True | string |
Version de l’API au format « AAAA-MM-DD » ou « AAAA-MM-DD ». |
|
Nom du déploiement vers lequel vous souhaitez acheminer la requête.
|
azureml-model-deployment | string |
Nom du déploiement vers lequel vous souhaitez acheminer la requête. Pris en charge pour les points de terminaison qui prennent en charge plusieurs déploiements. |
Retours
Représente des informations de base sur le modèle IA.
- Corps
- ModelInfo
Définitions
ModelInfo
Représente des informations de base sur le modèle IA.
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
model_name
|
model_name | string |
Nom du modèle IA. |
|
|
model_type | string |
Type du modèle IA. Identificateur unique du profil. |
|
model_provider_name
|
model_provider_name | string |
Nom du fournisseur de modèles. |
|
capabilities
|
capabilities |
ChatCompletionMessageToolCalls
Appels d’outils générés par le modèle, par exemple les appels de fonction.
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Objets
|
ChatCompletionMessageToolCall |
ChatCompletionMessageToolCall
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
pièce d'identité
|
id | string |
ID de l’appel de l’outil. |
|
type
|
type | string |
Type de l’outil. Actuellement, seule |
|
nom
|
function.name | string |
Nom de la fonction à appeler. |
|
arguments
|
function.arguments | string |
Arguments à utiliser pour appeler la fonction, tels que générés par le modèle au format JSON. Notez que le modèle ne génère pas toujours de JSON valide et peut halluciner des paramètres non définis par votre schéma de fonction. Validez les arguments dans votre code avant d’appeler votre fonction. |
ChatCompletionResponseMessage
Message de complétion de conversation généré par le modèle.
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
contenu
|
content | string |
Contenu du message. |
|
tool_calls
|
tool_calls | ChatCompletionMessageToolCalls |
Appels d’outils générés par le modèle, par exemple les appels de fonction. |
|
role
|
role | string |
Rôle de l’auteur de ce message. |
CreateChatCompletionResponse
Représente une réponse de complétion de conversation retournée par le modèle, en fonction de l’entrée fournie.
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
pièce d'identité
|
id | string |
Identificateur unique associé à cette réponse de saisie semi-automatique de conversation. |
|
choix
|
choices | array of object |
Liste des choix de saisie semi-automatique de conversation. Peut être plusieurs si |
|
|
choices.finish_reason | string |
Raison pour laquelle le modèle a cessé de générer des jetons. Cela sera |
|
content_filter_result
|
choices.content_filter_result | ||
|
index
|
choices.index | integer |
Index ordonné associé à ce choix de saisie semi-automatique de conversation. |
|
Message
|
choices.message | ChatCompletionResponseMessage |
Message de complétion de conversation généré par le modèle. |
|
créé
|
created | integer |
Le premier horodatage associé à l’activité de génération pour cette réponse d’achèvement, représenté sous forme de secondes depuis le début de l’époque Unix de 00:00 le 1er janvier 1970. |
|
modèle
|
model | string |
Modèle utilisé pour la complétion de conversation. |
|
objet
|
object | string |
Le type d’objet, qui est toujours |
|
usage
|
usage | CompletionUsage |
Représentation du nombre de jetons traités pour une demande d’achèvement. Les nombres prennent en compte tous les jetons des invites, des choix, des alternatives de choix, des générations best_of et d’autres consommateurs. |
CompletionUsage
Représentation du nombre de jetons traités pour une demande d’achèvement. Les nombres prennent en compte tous les jetons des invites, des choix, des alternatives de choix, des générations best_of et d’autres consommateurs.
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
completion_tokens
|
completion_tokens | integer |
Nombre de jetons générés sur toutes les émissions d’achèvement. |
|
prompt_tokens
|
prompt_tokens | integer |
Nombre de jetons dans les invites fournies pour la demande d’achèvement. |
|
total_tokens
|
total_tokens | integer |
Nombre total de jetons traités pour la demande et la réponse de saisie semi-automatique. |