Inferencia del modelo de Azure AI (versión preliminar)
API de inferencia de modelos para modelos implementados en Azure AI y Azure ML con puntos de conexión autohospedados y sin servidor.
Este conector está disponible en los siguientes productos y regiones:
| Service | Class | Regions |
|---|---|---|
| Aplicaciones lógicas | Estándar | Todas las regiones de Logic Apps excepto las siguientes: - Regiones de Azure Government - Regiones de Azure China - Departamento de Defensa de EE. UU. (DoD) |
| Contacto | |
|---|---|
| Nombre | Microsoft |
| URL | https://support.microsoft.com |
| Metadatos del conector | |
|---|---|
| Publicador | Microsoft Copilot Studio |
| Directiva de privacidad | https://privacy.microsoft.com/privacystatement |
| Sitio web | https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api |
| Categorías | INTELIGENCIA ARTIFICIAL |
El conector de inferencia de Azure AI le permite conectarse a su propio modelo desde Azure ai Studio.
Prerrequisitos
- Un modelo implementado en Azure Ai Studio
Obtención de las credenciales
Para autenticar las solicitudes de API, necesitará el punto de conexión y la clave de API del modelo.
Vaya al recurso en Azure open ai Studio:> implementaciones. A continuación, en Punto de conexión, el punto de conexión es el "URI de destino" y la clave está en "Clave".
Operaciones soportadas
El conector de inferencia de Azure AI admite las siguientes operaciones:
- GetModelInfo: devuelve la información sobre el modelo implementado en el punto de conexión.
Parámetros requeridos:
* `api-version` - The version of the Inference API
- GetChatCompletions: crea una respuesta de modelo para la conversación de chat dada.
Parámetros requeridos:
* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models
Valores predeterminados de parámetros opcionales:
* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1
Creación de una conexión
El conector admite los siguientes tipos de autenticación:
| Predeterminado | Parámetros para crear una conexión. | Todas las regiones | No se puede compartir |
Predeterminado
Aplicable: Todas las regiones
Parámetros para crear una conexión.
Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.
| Nombre | Tipo | Descripción | Obligatorio |
|---|---|---|---|
| Dirección URL del punto de conexión del modelo de Azure | cuerda / cadena | Escriba la dirección URL del punto de conexión del modelo implementado. Por ejemplo: https://resource.openai.azure.com | Cierto |
| Clave de API | securestring | Autorización para esta API | Cierto |
Limitaciones
| Nombre | Llamadas | Período de renovación |
|---|---|---|
| Llamadas API por conexión | 100 | 60 segundos |
Acciones
| Crea una respuesta de modelo para la conversación de chat dada. |
Crea una respuesta de modelo para la conversación de chat dada. |
| Devuelve la información sobre el modelo implementado en el punto de conexión. |
Devuelve información sobre el modelo de IA. El método realiza una llamada API REST a la |
Crea una respuesta de modelo para la conversación de chat dada.
Crea una respuesta de modelo para la conversación de chat dada.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
contenido
|
content | True | string |
El contenido del mensaje del sistema. |
|
role
|
role | True | string |
Rol del autor de mensajes, en este caso |
|
nombre
|
name | string |
Nombre opcional para el participante. Proporciona la información del modelo para diferenciar entre los participantes con el mismo rol. |
|
|
frequency_penalty
|
frequency_penalty | float |
Valor que influye en la probabilidad de que los tokens generados aparezcan en función de su frecuencia acumulativa en el texto generado. Los valores positivos harán que los tokens tengan menos probabilidades de aparecer a medida que su frecuencia aumente y disminuya la probabilidad de que el modelo repita las mismas instrucciones textualmente. El intervalo admitido es [-2, 2]. |
|
|
flujo
|
stream | boolean |
Valor que indica si se deben transmitir finalizaciones de chat para esta solicitud. |
|
|
presence_penalty
|
presence_penalty | float |
Valor que influye en la probabilidad de que los tokens generados aparezcan en función de su presencia existente en el texto generado. Los valores positivos harán que los tokens aparezcan menos cuando ya existan y aumenten la probabilidad del modelo de generar nuevos temas. El intervalo admitido es [-2, 2]. |
|
|
temperatura
|
temperature | float |
Temperatura de muestreo que se va a usar que controla la aparente creatividad de las finalizaciones generadas. Los valores más altos harán que la salida sea más aleatoria, mientras que los valores inferiores harán que los resultados sean más centrados y deterministas. No se recomienda modificar la temperatura y top_p para la misma solicitud de finalización que la interacción de estos dos valores es difícil de predecir. El intervalo admitido es [0, 1]. |
|
|
top_p
|
top_p | float |
Alternativa al muestreo con temperatura denominada muestreo de núcleo. Este valor hace que el modelo tenga en cuenta los resultados de los tokens con la masa de probabilidad proporcionada. Por ejemplo, un valor de 0,15 hará que solo se consideren los tokens que componen los 15 primeros% de masa de probabilidad. No se recomienda modificar la temperatura y top_p para la misma solicitud de finalización que la interacción de estos dos valores es difícil de predecir. El intervalo admitido es [0, 1]. |
|
|
max_tokens
|
max_tokens | integer |
Número máximo de tokens que se van a generar. |
|
|
tipo
|
type | string |
Debe ser uno de |
|
|
stop
|
stop | array of string |
Colección de secuencias textuales que finalizarán la generación de finalizaciones. |
|
|
tipo
|
type | True | string |
Tipo de la herramienta. Actualmente, solo se admite |
|
descripción
|
description | string |
Descripción de lo que hace la función. El modelo usará esta descripción al seleccionar la función e interpretar sus parámetros. |
|
|
nombre
|
name | True | string |
El nombre de la función que se llamará. |
|
parameters
|
parameters | object |
Los parámetros que aceptan las funciones, que se describen como un objeto de esquema JSON. |
|
|
seed
|
seed | integer |
Si se especifica, el sistema realizará un mejor esfuerzo para muestrear de forma determinista de forma que las solicitudes repetidas con la misma inicialización y parámetros deben devolver el mismo resultado. No se garantiza el determinismo. |
|
|
modelo
|
model | string |
Identificador del modelo de IA específico que se va a usar, si hay más de un modelo disponible en el punto de conexión. |
|
|
La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".
|
api-version | True | string |
La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview". |
|
Controla lo que sucede si se pasa un parámetro desconocido.
|
extra-parameters | string |
Controla lo que sucede si se pasan parámetros adicionales, sin definir por la API REST, en la carga de la solicitud JSON. Esto establece el encabezado |
|
|
Nombre de la implementación a la que desea enrutar la solicitud.
|
azureml-model-deployment | string |
Nombre de la implementación a la que desea enrutar la solicitud. Compatible con puntos de conexión que admiten varias implementaciones. |
Devoluciones
Representa una respuesta de finalización de chat devuelta por el modelo, en función de la entrada proporcionada.
Devuelve la información sobre el modelo implementado en el punto de conexión.
Devuelve información sobre el modelo de IA. El método realiza una llamada API REST a la /info ruta en el punto de conexión especificado. Este método solo funcionará cuando se use la API sin servidor o el punto de conexión de proceso administrado. No funcionará para el punto de conexión de modelos de GitHub ni para el punto de conexión de Azure OpenAI.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".
|
api-version | True | string |
La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview". |
|
Nombre de la implementación a la que desea enrutar la solicitud.
|
azureml-model-deployment | string |
Nombre de la implementación a la que desea enrutar la solicitud. Compatible con puntos de conexión que admiten varias implementaciones. |
Devoluciones
Representa información básica sobre el modelo de IA.
- Body
- ModelInfo
Definiciones
ModelInfo
Representa información básica sobre el modelo de IA.
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
model_name
|
model_name | string |
Nombre del modelo de IA. |
|
|
model_type | string |
Tipo del modelo de IA. Identificador único del perfil. |
|
model_provider_name
|
model_provider_name | string |
Nombre del proveedor del modelo. |
|
capabilities
|
capabilities |
ChatCompletionMessageToolCalls
Llamadas a herramientas generadas por el modelo, como las llamadas a funciones.
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Productos
|
ChatCompletionMessageToolCall |
ChatCompletionMessageToolCall
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
id
|
id | string |
Identificador de la llamada a la herramienta. |
|
tipo
|
type | string |
Tipo de la herramienta. Actualmente, solo se admite |
|
nombre
|
function.name | string |
El nombre de la función para llamar. |
|
argumentos
|
function.arguments | string |
Argumentos para llamar a la función con, según lo generado por el modelo en formato JSON. Tenga en cuenta que el modelo no siempre genera JSON válido y puede que genere una alucinación de los parámetros no definidos por el esquema de función. Valide los argumentos del código antes de llamar a la función. |
ChatCompletionResponseMessage
Mensaje de finalización del chat generado por el modelo.
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
contenido
|
content | string |
Contenido del mensaje. |
|
tool_calls
|
tool_calls | ChatCompletionMessageToolCalls |
Llamadas a herramientas generadas por el modelo, como las llamadas a funciones. |
|
role
|
role | string |
Rol del autor de este mensaje. |
CreateChatCompletionResponse
Representa una respuesta de finalización de chat devuelta por el modelo, en función de la entrada proporcionada.
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
id
|
id | string |
Identificador único asociado a esta respuesta de finalizaciones de chat. |
|
opciones
|
choices | array of object |
Una lista de opciones de finalización de chat. Puede ser más de uno si |
|
|
choices.finish_reason | string |
Motivo por el que el modelo dejó de generar tokens. Esto será |
|
content_filter_result
|
choices.content_filter_result | ||
|
index
|
choices.index | integer |
Índice ordenado asociado a esta opción de finalizaciones de chat. |
|
Mensaje
|
choices.message | ChatCompletionResponseMessage |
Mensaje de finalización del chat generado por el modelo. |
|
creado
|
created | integer |
La primera marca de tiempo asociada a la actividad de generación para esta respuesta de finalización, representada como segundos desde el inicio de la época de Unix de 00:00 el 1 de enero de 1970. |
|
modelo
|
model | string |
Modelo usado para la finalización de chat. |
|
objeto
|
object | string |
Tipo de objeto, que siempre es |
|
usage
|
usage | CompletionUsage |
Representación de los recuentos de tokens procesados para una solicitud de finalización. Los recuentos consideran todos los tokens en mensajes, opciones, alternativas de elección, generaciones de best_of y otros consumidores. |
CompletionUsage
Representación de los recuentos de tokens procesados para una solicitud de finalización. Los recuentos consideran todos los tokens en mensajes, opciones, alternativas de elección, generaciones de best_of y otros consumidores.
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
completion_tokens
|
completion_tokens | integer |
Número de tokens generados en todas las emisiones de finalizaciones. |
|
prompt_tokens
|
prompt_tokens | integer |
El número de tokens de las solicitudes proporcionadas para la solicitud de finalización. |
|
total_tokens
|
total_tokens | integer |
Número total de tokens procesados para la solicitud y respuesta de finalizaciones. |