Implementación de modelos en puntos de conexión

8 minutos

Después de seleccionar un modelo del catálogo, se implementa para crear un punto de conexión accesible que las aplicaciones puedan usar. El portal de Microsoft Foundry te guía a través del proceso de implementación y proporciona herramientas para probar tu modelo implementado inmediatamente.

Diagrama de la pregunta del usuario que procesa el modelo implementado en el punto de conexión.

Descripción de los tipos de implementación

Microsoft Foundry admite varios tipos de implementación, cada uno de los cuales ofrece características diferentes para la residencia, el escalado y la facturación de datos:

La implementación estándar en los recursos de Foundry es la opción de implementación preferida, que ofrece la gama más amplia de funcionalidades, como el procesamiento regional, de zona de datos o global. Admite tanto la facturación basada en tokens estándar como las unidades de rendimiento aprovisionadas (PTU) para la capacidad reservada. Los modelos insignia del catálogo admiten este tipo de implementación. Las implementaciones estándar proporcionan opciones de filtrado de contenido, filtrado de contenido personalizado y autenticación sin claves.

Las implementaciones de API sin servidor proporcionan un modelo de pago por llamada en el que se le factura según el uso del token. Esta opción requiere una configuración mínima y escala automáticamente. Es ideal para aplicaciones con patrones de tráfico variables o impredecibles. Solo está disponible en los recursos de AI Hub, las implementaciones sin servidor admiten el procesamiento regional y la facturación de pago por uso. Algunos modelos requieren Azure Marketplace suscripciones al usar la implementación sin servidor.

Informática gestionada Las implementaciones ejecutan modelos en máquinas virtuales de Azure que usted configura y administra. Seleccione la SKU de máquina virtual y el recuento de instancias, lo que le proporciona control sobre los recursos de proceso. La facturación se lleva a cabo por minuto para las horas de computación de núcleo. Esta opción es necesaria para los modelos de Hugging Face, NVIDIA NIMs, modelos específicos de la industria, modelos de Databricks y modelos personalizados.

Las implementaciones por lotes gestionan trabajos de procesamiento optimizados para reducir costos cuando la latencia no es crítica. Enviar lotes grandes de solicitudes que procesan de forma asincrónica. Aunque las pruebas de área de juegos no están disponibles para las implementaciones por lotes, ofrecen un ahorro significativo de costos para cargas de trabajo no interactivas.

Cada modelo del catálogo indica qué tipos de implementación admite. El portal puede seleccionar automáticamente la mejor opción de implementación en función de los requisitos del entorno y del modelo. Las implementaciones estándar en los recursos de Foundry deben usarse siempre que sea posible para las funcionalidades máximas.

Implementar un modelo

Para implementar un modelo desde el portal de Microsoft Foundry:

En primer lugar, vaya al modelo seleccionado en el catálogo Modelo. En la página principal del portal de Foundry, seleccione Detectar en el panel de navegación y, a continuación, Modelos en el panel izquierdo. Abra la tarjeta de modelo para revisar sus especificaciones y los tipos de implementación admitidos.

Seleccione Implementar para comenzar el proceso de implementación. Puede elegir:

Configuración predeterminada para implementar rápidamente con configuraciones recomendadas
Configuración personalizada para personalizar las opciones de implementación

Si el modelo requiere una suscripción de Azure Marketplace (común para los modelos de asociados y la comunidad), verá los términos de uso. Revise estos términos y seleccione Aceptar y Continuar para aceptarlos. Los modelos vendidos directamente por Azure, como los modelos Azure OpenAI como GPT-4o-mini, no requieren suscripciones de marketplace.

Configure las opciones de implementación:

Nombre de implementación: de forma predeterminada, el sistema usa el nombre del modelo. Puede modificarlo para crear nombres significativos para varias implementaciones del mismo modelo. Durante la inferencia, el código usa este nombre de implementación en el model parámetro para enrutar las solicitudes.
Tipo de implementación: el portal selecciona automáticamente el tipo de implementación adecuado en función del modelo y el entorno. Cada modelo admite diferentes tipos de implementación que proporcionan garantías de residencia o rendimiento de datos diferentes.

Para los despliegues de cómputo administrados, también configura:

SKU de máquina virtual: elija entre los tipos de máquina virtual admitidos. Necesita una cuota de proceso de Azure Machine Learning para el tipo de SKU seleccionado en su suscripción.
Recuento de instancias: especifique cuántas instancias se van a implementar para la distribución de carga y la redundancia.

Después de configurar todas las opciones, seleccione Implementar. Cuando se complete la implementación, llegará al área de juegos de Foundry, donde podrá probar interactivamente el modelo. Verifique que el estado de despliegue se muestre como Correcto en la lista de despliegue.

Administración de modelos implementados

Después de la implementación, administrará los modelos desde la sección Compilación del portal de Microsoft Foundry. Seleccione Compilar en el panel de navegación y, a continuación, Modelos en el panel izquierdo para ver la lista de implementaciones en el recurso.

En la lista de implementación, seleccione un modelo específico para ver sus detalles:

Configuración y estado de implementación
URL del endpoint para acceso a la API
Claves o tokens de autenticación
Métricas de supervisión y uso
Opción para ajustar la configuración de implementación o eliminar la implementación

La página de detalles de implementación proporciona la información que las aplicaciones necesitan para conectarse y usar el modelo.

Prueba en el área de juegos

El portal de Microsoft Foundry incluye áreas de juegos interactivas en las que se prueban los modelos implementados inmediatamente, sin escribir código. Una vez completada la implementación, se llega automáticamente al área de juegos o puede seleccionar una implementación en la lista de modelos para abrir el área de juegos.

El área de juegos preselecciona la forma en que se implementa, por lo que puede comenzar a realizar evaluaciones de inmediato. En la interfaz de chat:

Escriba las indicaciones en el cuadro de mensaje y observe las respuestas. El entorno de prueba muestra tanto su entrada como la salida generada del modelo, ayudándole a comprender el comportamiento y la calidad.

Experimente con diferentes tipos de mensajes para probar varias funcionalidades:

Preguntas sencillas para comprobar la comprensión básica
Problemas complejos de razonamiento en varios pasos
Solicitudes de formatos o estilos específicos
Casos perimetrales que podrían revelar limitaciones

Ajuste los mensajes del sistema para guiar el comportamiento del modelo. Los mensajes del sistema establecen contexto, tono e instrucciones que se aplican a todas las entradas de usuario. Por ejemplo, puede indicar al modelo que "responda como un representante de customer service" o "proporcionar explicaciones técnicas concisas".

Modifique parámetros como temperatura (creatividad frente a coherencia), tokens máximos (límites de longitud de respuesta) y top-p (muestreo de núcleo) para ajustar el comportamiento de generación.

Seleccione la pestaña Código para ver ejemplos de cómo llamar al modelo implementado mediante programación. Los ejemplos de código muestran la autenticación, la configuración del punto de conexión y el formato de solicitud en lenguajes como Python, C# y JavaScript. Puede copiar estos ejemplos directamente en la aplicación.

El área de juegos sirve como entorno de desarrollo para la ingeniería de solicitudes y pruebas antes de integrar el modelo en su aplicación.

Acceder a modelos mediante programación

Cuando esté listo para integrar el modelo en la aplicación, necesita tres fragmentos clave de información de los detalles de implementación:

URL del punto de conexión: del API donde tu aplicación envía solicitudes. Esta dirección URL es específica de tu implementación.

Clave de autenticación: la clave secreta o el token que presenta la aplicación para autenticar las solicitudes. Trata esto como credenciales confidenciales.

Nombre de implementación: el nombre que especificó durante la implementación, que se usa en el model parámetro de las solicitudes de API para enrutar a la implementación específica.

La aplicación usa estos detalles para construir solicitudes de API. El portal de Microsoft Foundry proporciona SDK y documentación de la API REST para varios lenguajes de programación, junto con ejemplos de código que muestran el formato de solicitudes, la autenticación y el control de respuestas.

Con el modelo implementado y probado, está listo para integrarlo en aplicaciones o continuar con una evaluación más completa mediante métricas automatizadas y conjuntos de datos de prueba.

Comentarios

¿Le ha resultado útil esta página?