Inferencia del modelo de Azure AI (versión preliminar)

API de inferencia de modelos para modelos implementados en Azure AI y Azure ML con puntos de conexión autohospedados y sin servidor.

Este conector está disponible en los siguientes productos y regiones:

Service	Class	Regions
Aplicaciones lógicas	Estándar	Todas las regiones de Logic Apps excepto las siguientes: - Regiones de Azure Government - Regiones de Azure China - Departamento de Defensa de EE. UU. (DoD)

Contacto
Nombre	Microsoft
URL	https://support.microsoft.com

Metadatos del conector
Publicador	Microsoft Copilot Studio
Directiva de privacidad	https://privacy.microsoft.com/privacystatement
Sitio web	https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Categorías	INTELIGENCIA ARTIFICIAL

El conector de inferencia de Azure AI le permite conectarse a su propio modelo desde Azure ai Studio.

Prerrequisitos

Un modelo implementado en Azure Ai Studio

Obtención de las credenciales

Para autenticar las solicitudes de API, necesitará el punto de conexión y la clave de API del modelo.

Vaya al recurso en Azure open ai Studio:> implementaciones. A continuación, en Punto de conexión, el punto de conexión es el "URI de destino" y la clave está en "Clave".

Operaciones soportadas

El conector de inferencia de Azure AI admite las siguientes operaciones:

GetModelInfo: devuelve la información sobre el modelo implementado en el punto de conexión.

Parámetros requeridos:

* `api-version` - The version of the Inference API

GetChatCompletions: crea una respuesta de modelo para la conversación de chat dada.

Parámetros requeridos:

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Valores predeterminados de parámetros opcionales:

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

Creación de una conexión

El conector admite los siguientes tipos de autenticación:


Predeterminado	Parámetros para crear una conexión.	Todas las regiones	No se puede compartir

Predeterminado

Aplicable: Todas las regiones

Parámetros para crear una conexión.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre	Tipo	Descripción	Obligatorio
Dirección URL del punto de conexión del modelo de Azure	cuerda / cadena	Escriba la dirección URL del punto de conexión del modelo implementado. Por ejemplo: https://resource.openai.azure.com	Cierto
Clave de API	securestring	Autorización para esta API	Cierto

Limitaciones

Nombre	Llamadas	Período de renovación
Llamadas API por conexión	100	60 segundos

Acciones

Crea una respuesta de modelo para la conversación de chat dada.	Crea una respuesta de modelo para la conversación de chat dada.
Devuelve la información sobre el modelo implementado en el punto de conexión.	Devuelve información sobre el modelo de IA. El método realiza una llamada API REST a la `/info` ruta en el punto de conexión especificado. Este método solo funcionará cuando se use la API sin servidor o el punto de conexión de proceso administrado. No funcionará para el punto de conexión de modelos de GitHub ni para el punto de conexión de Azure OpenAI.

Crea una respuesta de modelo para la conversación de chat dada.

Id. de la operación:: GetChatCompletions

Crea una respuesta de modelo para la conversación de chat dada.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
contenido	content	True	string	El contenido del mensaje del sistema.
role	role	True	string	Rol del autor de mensajes, en este caso `system`.
nombre	name		string	Nombre opcional para el participante. Proporciona la información del modelo para diferenciar entre los participantes con el mismo rol.
frequency_penalty	frequency_penalty		float	Valor que influye en la probabilidad de que los tokens generados aparezcan en función de su frecuencia acumulativa en el texto generado. Los valores positivos harán que los tokens tengan menos probabilidades de aparecer a medida que su frecuencia aumente y disminuya la probabilidad de que el modelo repita las mismas instrucciones textualmente. El intervalo admitido es [-2, 2].
flujo	stream		boolean	Valor que indica si se deben transmitir finalizaciones de chat para esta solicitud.
presence_penalty	presence_penalty		float	Valor que influye en la probabilidad de que los tokens generados aparezcan en función de su presencia existente en el texto generado. Los valores positivos harán que los tokens aparezcan menos cuando ya existan y aumenten la probabilidad del modelo de generar nuevos temas. El intervalo admitido es [-2, 2].
temperatura	temperature		float	Temperatura de muestreo que se va a usar que controla la aparente creatividad de las finalizaciones generadas. Los valores más altos harán que la salida sea más aleatoria, mientras que los valores inferiores harán que los resultados sean más centrados y deterministas. No se recomienda modificar la temperatura y top_p para la misma solicitud de finalización que la interacción de estos dos valores es difícil de predecir. El intervalo admitido es [0, 1].
top_p	top_p		float	Alternativa al muestreo con temperatura denominada muestreo de núcleo. Este valor hace que el modelo tenga en cuenta los resultados de los tokens con la masa de probabilidad proporcionada. Por ejemplo, un valor de 0,15 hará que solo se consideren los tokens que componen los 15 primeros% de masa de probabilidad. No se recomienda modificar la temperatura y top_p para la misma solicitud de finalización que la interacción de estos dos valores es difícil de predecir. El intervalo admitido es [0, 1].
max_tokens	max_tokens		integer	Número máximo de tokens que se van a generar.
tipo	type		string	Debe ser uno de `text` o `json_object`.
stop	stop		array of string	Colección de secuencias textuales que finalizarán la generación de finalizaciones.
tipo	type	True	string	Tipo de la herramienta. Actualmente, solo se admite `function`.
descripción	description		string	Descripción de lo que hace la función. El modelo usará esta descripción al seleccionar la función e interpretar sus parámetros.
nombre	name	True	string	El nombre de la función que se llamará.
parameters	parameters		object	Los parámetros que aceptan las funciones, que se describen como un objeto de esquema JSON.
seed	seed		integer	Si se especifica, el sistema realizará un mejor esfuerzo para muestrear de forma determinista de forma que las solicitudes repetidas con la misma inicialización y parámetros deben devolver el mismo resultado. No se garantiza el determinismo.
modelo	model		string	Identificador del modelo de IA específico que se va a usar, si hay más de un modelo disponible en el punto de conexión.
La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".	api-version	True	string	La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".
Controla lo que sucede si se pasa un parámetro desconocido.	extra-parameters		string	Controla lo que sucede si se pasan parámetros adicionales, sin definir por la API REST, en la carga de la solicitud JSON. Esto establece el encabezado `extra-parameters`de solicitud HTTP . error: el servicio producirá un error si detectó parámetros adicionales en la carga de la solicitud. Este es el valor predeterminado del servicio. drop: el servicio omitirá (quitar) parámetros adicionales en la carga de la solicitud. Solo pasará los parámetros conocidos al modelo de IA de back-end. paso a través: el servicio pasará parámetros adicionales al modelo de inteligencia artificial de back-end.
Nombre de la implementación a la que desea enrutar la solicitud.	azureml-model-deployment		string	Nombre de la implementación a la que desea enrutar la solicitud. Compatible con puntos de conexión que admiten varias implementaciones.

Devoluciones

Representa una respuesta de finalización de chat devuelta por el modelo, en función de la entrada proporcionada.

Body: CreateChatCompletionResponse

Devuelve la información sobre el modelo implementado en el punto de conexión.

Id. de la operación:: GetModelInfo

Devuelve información sobre el modelo de IA. El método realiza una llamada API REST a la /info ruta en el punto de conexión especificado. Este método solo funcionará cuando se use la API sin servidor o el punto de conexión de proceso administrado. No funcionará para el punto de conexión de modelos de GitHub ni para el punto de conexión de Azure OpenAI.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".	api-version	True	string	La versión de la API con el formato "AAAA-MM-DD" o "AAAA-MM-DD-preview".
Nombre de la implementación a la que desea enrutar la solicitud.	azureml-model-deployment		string	Nombre de la implementación a la que desea enrutar la solicitud. Compatible con puntos de conexión que admiten varias implementaciones.

Devoluciones

Representa información básica sobre el modelo de IA.

Body: ModelInfo

Definiciones

ModelInfo

Representa información básica sobre el modelo de IA.

Nombre	Ruta de acceso	Tipo	Description
model_name	model_name	string	Nombre del modelo de IA.
	model_type	string	Tipo del modelo de IA. Identificador único del perfil.
model_provider_name	model_provider_name	string	Nombre del proveedor del modelo.
capabilities	capabilities

ChatCompletionMessageToolCalls

Llamadas a herramientas generadas por el modelo, como las llamadas a funciones.

Nombre	Ruta de acceso	Tipo	Description
Productos		ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Nombre	Ruta de acceso	Tipo	Description
id	id	string	Identificador de la llamada a la herramienta.
tipo	type	string	Tipo de la herramienta. Actualmente, solo se admite `function`.
nombre	function.name	string	El nombre de la función para llamar.
argumentos	function.arguments	string	Argumentos para llamar a la función con, según lo generado por el modelo en formato JSON. Tenga en cuenta que el modelo no siempre genera JSON válido y puede que genere una alucinación de los parámetros no definidos por el esquema de función. Valide los argumentos del código antes de llamar a la función.

ChatCompletionResponseMessage

Mensaje de finalización del chat generado por el modelo.

Nombre	Ruta de acceso	Tipo	Description
contenido	content	string	Contenido del mensaje.
tool_calls	tool_calls	ChatCompletionMessageToolCalls	Llamadas a herramientas generadas por el modelo, como las llamadas a funciones.
role	role	string	Rol del autor de este mensaje.

CreateChatCompletionResponse

Representa una respuesta de finalización de chat devuelta por el modelo, en función de la entrada proporcionada.

Nombre	Ruta de acceso	Tipo	Description
id	id	string	Identificador único asociado a esta respuesta de finalizaciones de chat.
opciones	choices	array of object	Una lista de opciones de finalización de chat. Puede ser más de uno si `n` es mayor que 1.
	choices.finish_reason	string	Motivo por el que el modelo dejó de generar tokens. Esto será `stop` si el modelo alcanza un punto de detención natural o una secuencia de detención proporcionada,`length` si se alcanzó el número máximo de tokens especificados en la solicitud,`content_filter` si se omitió el contenido debido a una marca de nuestros filtros de contenido,`tool_calls` si el modelo llamó a una herramienta.
content_filter_result	choices.content_filter_result
index	choices.index	integer	Índice ordenado asociado a esta opción de finalizaciones de chat.
Mensaje	choices.message	ChatCompletionResponseMessage	Mensaje de finalización del chat generado por el modelo.
creado	created	integer	La primera marca de tiempo asociada a la actividad de generación para esta respuesta de finalización, representada como segundos desde el inicio de la época de Unix de 00:00 el 1 de enero de 1970.
modelo	model	string	Modelo usado para la finalización de chat.
objeto	object	string	Tipo de objeto, que siempre es `chat.completion`.
usage	usage	CompletionUsage	Representación de los recuentos de tokens procesados para una solicitud de finalización. Los recuentos consideran todos los tokens en mensajes, opciones, alternativas de elección, generaciones de best_of y otros consumidores.

CompletionUsage

Representación de los recuentos de tokens procesados para una solicitud de finalización. Los recuentos consideran todos los tokens en mensajes, opciones, alternativas de elección, generaciones de best_of y otros consumidores.

Nombre	Ruta de acceso	Tipo	Description
completion_tokens	completion_tokens	integer	Número de tokens generados en todas las emisiones de finalizaciones.
prompt_tokens	prompt_tokens	integer	El número de tokens de las solicitudes proporcionadas para la solicitud de finalización.
total_tokens	total_tokens	integer	Número total de tokens procesados para la solicitud y respuesta de finalizaciones.

Compartir a través de

Inferencia del modelo de Azure AI (versión preliminar)

Prerrequisitos

Obtención de las credenciales

Operaciones soportadas

Creación de una conexión

Predeterminado

Limitaciones

Acciones

Crea una respuesta de modelo para la conversación de chat dada.

Parámetros

Devoluciones

Devuelve la información sobre el modelo implementado en el punto de conexión.

Parámetros

Devoluciones

Definiciones

ModelInfo

ChatCompletionMessageToolCalls

ChatCompletionMessageToolCall

ChatCompletionResponseMessage

CreateChatCompletionResponse

CompletionUsage