Compartir a través de


Inferencia del modelo de Azure AI (versión preliminar)

API de inferencia de modelos para modelos implementados en Azure AI y Azure ML con puntos de conexión autohospedados y sin servidor.

Este conector está disponible en los siguientes productos y regiones:

Service Class Regions
Aplicaciones lógicas Estándar Todas las regiones de Logic Apps excepto las siguientes:
     - Regiones de Azure Government
     - Regiones de Azure China
     - Departamento de Defensa de EE. UU. (DoD)
Contacto
Nombre Microsoft
URL https://support.microsoft.com
Metadatos del conector
Publicador Microsoft Copilot Studio
Directiva de privacidad https://privacy.microsoft.com/privacystatement
Sitio web https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Categorías INTELIGENCIA ARTIFICIAL

El conector de inferencia de Azure AI le permite conectarse a su propio modelo desde Azure ai Studio.

Prerrequisitos

  • Un modelo implementado en Azure Ai Studio

Obtención de las credenciales

Para autenticar las solicitudes de API, necesitará el punto de conexión y la clave de API del modelo.

Vaya al recurso en Azure open ai Studio:> implementaciones. A continuación, en Punto de conexión, el punto de conexión es el "URI de destino" y la clave está en "Clave".

Operaciones soportadas

El conector de inferencia de Azure AI admite las siguientes operaciones:

  1. GetModelInfo: devuelve la información sobre el modelo implementado en el punto de conexión.

Parámetros requeridos:

* `api-version` - The version of the Inference API
  1. GetChatCompletions: crea una respuesta de modelo para la conversación de chat dada.

Parámetros requeridos:

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Valores predeterminados de parámetros opcionales:

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

Creación de una conexión

El conector admite los siguientes tipos de autenticación:

Predeterminado Parámetros para crear una conexión. Todas las regiones No se puede compartir

Predeterminado

Aplicable: Todas las regiones

Parámetros para crear una conexión.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre Tipo Descripción Obligatorio
Dirección URL del punto de conexión del modelo de Azure cuerda / cadena Escriba la dirección URL del punto de conexión del modelo implementado. Por ejemplo: https://resource.openai.azure.com Cierto
Clave de API securestring Autorización para esta API Cierto

Limitaciones

Nombre Llamadas Período de renovación
Llamadas API por conexión 100 60 segundos

Acciones

Crea una respuesta de modelo para la conversación de chat dada.

Crea una respuesta de modelo para la conversación de chat dada.

Devuelve la información sobre el modelo implementado en el punto de conexión.

Devuelve información sobre el modelo de IA. El método realiza una llamada API REST a la /info ruta en el punto de conexión especificado. Este método solo funcionará cuando se use la API sin servidor o el punto de conexión de proceso administrado. No funcionará para el punto de conexión de modelos de GitHub ni para el punto de conexión de Azure OpenAI.

Crea una respuesta de modelo para la conversación de chat dada.

Crea una respuesta de modelo para la conversación de chat dada.

Parámetros

Nombre Clave Requerido Tipo Description
contenido
content True string

El contenido del mensaje del sistema.

role
role True string

Rol del autor de mensajes, en este caso system.

nombre
name string

Nombre opcional para el participante. Proporciona la información del modelo para diferenciar entre los participantes con el mismo rol.

frequency_penalty
frequency_penalty float

Valor que influye en la probabilidad de que los tokens generados aparezcan en función de su frecuencia acumulativa en el texto generado. Los valores positivos harán que los tokens tengan menos probabilidades de aparecer a medida que su frecuencia aumente y disminuya la probabilidad de que el modelo repita las mismas instrucciones textualmente. El intervalo admitido es [-2, 2].

flujo
stream boolean

Valor que indica si se deben transmitir finalizaciones de chat para esta solicitud.

presence_penalty
presence_penalty float

Valor que influye en la probabilidad de que los tokens generados aparezcan en función de su presencia existente en el texto generado. Los valores positivos harán que los tokens aparezcan menos cuando ya existan y aumenten la probabilidad del modelo de generar nuevos temas. El intervalo admitido es [-2, 2].

temperatura
temperature float

Temperatura de muestreo que se va a usar que controla la aparente creatividad de las finalizaciones generadas. Los valores más altos harán que la salida sea más aleatoria, mientras que los valores inferiores harán que los resultados sean más centrados y deterministas. No se recomienda modificar la temperatura y top_p para la misma solicitud de finalización que la interacción de estos dos valores es difícil de predecir. El intervalo admitido es [0, 1].

top_p
top_p float

Alternativa al muestreo con temperatura denominada muestreo de núcleo. Este valor hace que el modelo tenga en cuenta los resultados de los tokens con la masa de probabilidad proporcionada. Por ejemplo, un valor de 0,15 hará que solo se consideren los tokens que componen los 15 primeros% de masa de probabilidad. No se recomienda modificar la temperatura y top_p para la misma solicitud de finalización que la interacción de estos dos valores es difícil de predecir. El intervalo admitido es [0, 1].

max_tokens
max_tokens integer

Número máximo de tokens que se van a generar.

tipo
type string

Debe ser uno de text o json_object.

stop
stop array of string

Colección de secuencias textuales que finalizarán la generación de finalizaciones.

tipo
type True string

Tipo de la herramienta. Actualmente, solo se admite function.

descripción
description string

Descripción de lo que hace la función. El modelo usará esta descripción al seleccionar la función e interpretar sus parámetros.

nombre
name True string

El nombre de la función que se llamará.

parameters
parameters object

Los parámetros que aceptan las funciones, que se describen como un objeto de esquema JSON.

seed
seed integer

Si se especifica, el sistema realizará un mejor esfuerzo para muestrear de forma determinista de forma que las solicitudes repetidas con la misma inicialización y parámetros deben devolver el mismo resultado. No se garantiza el determinismo.

modelo
model string

Identificador del modelo de IA específico que se va a usar, si hay más de un modelo disponible en el punto de conexión.

La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".
api-version True string

La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".

Controla lo que sucede si se pasa un parámetro desconocido.
extra-parameters string

Controla lo que sucede si se pasan parámetros adicionales, sin definir por la API REST, en la carga de la solicitud JSON. Esto establece el encabezado extra-parametersde solicitud HTTP . error: el servicio producirá un error si detectó parámetros adicionales en la carga de la solicitud. Este es el valor predeterminado del servicio. drop: el servicio omitirá (quitar) parámetros adicionales en la carga de la solicitud. Solo pasará los parámetros conocidos al modelo de IA de back-end. paso a través: el servicio pasará parámetros adicionales al modelo de inteligencia artificial de back-end.

Nombre de la implementación a la que desea enrutar la solicitud.
azureml-model-deployment string

Nombre de la implementación a la que desea enrutar la solicitud. Compatible con puntos de conexión que admiten varias implementaciones.

Devoluciones

Representa una respuesta de finalización de chat devuelta por el modelo, en función de la entrada proporcionada.

Devuelve la información sobre el modelo implementado en el punto de conexión.

Devuelve información sobre el modelo de IA. El método realiza una llamada API REST a la /info ruta en el punto de conexión especificado. Este método solo funcionará cuando se use la API sin servidor o el punto de conexión de proceso administrado. No funcionará para el punto de conexión de modelos de GitHub ni para el punto de conexión de Azure OpenAI.

Parámetros

Nombre Clave Requerido Tipo Description
La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".
api-version True string

La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".

Nombre de la implementación a la que desea enrutar la solicitud.
azureml-model-deployment string

Nombre de la implementación a la que desea enrutar la solicitud. Compatible con puntos de conexión que admiten varias implementaciones.

Devoluciones

Representa información básica sobre el modelo de IA.

Body
ModelInfo

Definiciones

ModelInfo

Representa información básica sobre el modelo de IA.

Nombre Ruta de acceso Tipo Description
model_name
model_name string

Nombre del modelo de IA.

model_type string

Tipo del modelo de IA. Identificador único del perfil.

model_provider_name
model_provider_name string

Nombre del proveedor del modelo.

capabilities
capabilities

ChatCompletionMessageToolCalls

Llamadas a herramientas generadas por el modelo, como las llamadas a funciones.

Nombre Ruta de acceso Tipo Description
Productos
ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Nombre Ruta de acceso Tipo Description
id
id string

Identificador de la llamada a la herramienta.

tipo
type string

Tipo de la herramienta. Actualmente, solo se admite function.

nombre
function.name string

El nombre de la función para llamar.

argumentos
function.arguments string

Argumentos para llamar a la función con, según lo generado por el modelo en formato JSON. Tenga en cuenta que el modelo no siempre genera JSON válido y puede que genere una alucinación de los parámetros no definidos por el esquema de función. Valide los argumentos del código antes de llamar a la función.

ChatCompletionResponseMessage

Mensaje de finalización del chat generado por el modelo.

Nombre Ruta de acceso Tipo Description
contenido
content string

Contenido del mensaje.

tool_calls
tool_calls ChatCompletionMessageToolCalls

Llamadas a herramientas generadas por el modelo, como las llamadas a funciones.

role
role string

Rol del autor de este mensaje.

CreateChatCompletionResponse

Representa una respuesta de finalización de chat devuelta por el modelo, en función de la entrada proporcionada.

Nombre Ruta de acceso Tipo Description
id
id string

Identificador único asociado a esta respuesta de finalizaciones de chat.

opciones
choices array of object

Una lista de opciones de finalización de chat. Puede ser más de uno si n es mayor que 1.

choices.finish_reason string

Motivo por el que el modelo dejó de generar tokens. Esto será stop si el modelo alcanza un punto de detención natural o una secuencia de detención proporcionada,length si se alcanzó el número máximo de tokens especificados en la solicitud,content_filter si se omitió el contenido debido a una marca de nuestros filtros de contenido,tool_calls si el modelo llamó a una herramienta.

content_filter_result
choices.content_filter_result
index
choices.index integer

Índice ordenado asociado a esta opción de finalizaciones de chat.

Mensaje
choices.message ChatCompletionResponseMessage

Mensaje de finalización del chat generado por el modelo.

creado
created integer

La primera marca de tiempo asociada a la actividad de generación para esta respuesta de finalización, representada como segundos desde el inicio de la época de Unix de 00:00 el 1 de enero de 1970.

modelo
model string

Modelo usado para la finalización de chat.

objeto
object string

Tipo de objeto, que siempre es chat.completion.

usage
usage CompletionUsage

Representación de los recuentos de tokens procesados para una solicitud de finalización. Los recuentos consideran todos los tokens en mensajes, opciones, alternativas de elección, generaciones de best_of y otros consumidores.

CompletionUsage

Representación de los recuentos de tokens procesados para una solicitud de finalización. Los recuentos consideran todos los tokens en mensajes, opciones, alternativas de elección, generaciones de best_of y otros consumidores.

Nombre Ruta de acceso Tipo Description
completion_tokens
completion_tokens integer

Número de tokens generados en todas las emisiones de finalizaciones.

prompt_tokens
prompt_tokens integer

El número de tokens de las solicitudes proporcionadas para la solicitud de finalización.

total_tokens
total_tokens integer

Número total de tokens procesados para la solicitud y respuesta de finalizaciones.