Operaciones de aprendizaje automático

2024-07-23

En este artículo se describen tres arquitecturas de Azure para las operaciones de aprendizaje automático que tienen canalizaciones de integración continua y entrega continua (CI/CD) y reentrenamiento de canalizaciones. Las arquitecturas son para estas aplicaciones de inteligencia artificial:

Aprendizaje automático clásico
Computer Vision (CV)
Procesamiento del lenguaje natural

Estas arquitecturas son el producto del proyecto MLOps v2. Incorporan procedimientos recomendados que los arquitectos de soluciones han identificado durante el desarrollo de varias soluciones de aprendizaje automático. El resultado se puede implementar, es repetible y fácil de mantener. Las tres arquitecturas usan Azure Machine Learning Service.

Para obtener una implementación con plantillas de implementación de ejemplo para MLOps v2, consulte Repositorio de GitHub de Azure MLOps v2.

Posibles casos de uso

Aprendizaje automático clásico: la previsión de series temporales, la regresión y la clasificación en datos estructurados tabulares son los casos de uso más comunes de esta categoría. Algunos ejemplos son:
- Clasificación binaria y de varias etiquetas.
- Regresión lineal, polinómica, contraída, de lazo, cuantil y bayesiana.
- ARIMA, autorregresiva, SARIMA, VAR, SES, LSTM.
CV: el marco MLOps de este artículo se centra principalmente en los casos de uso de CV de segmentación y clasificación de imágenes.
Procesamiento de lenguaje natural: puede usar este marco de MLOps para implementar:
- Reconocimiento de entidades con nombre
- Clasificación de textos
- Generación de texto
- análisis de opiniones
- Traducción
- Respuesta a preguntas
- Resumen
- Detección de frases
- Detección de idiomas
- Etiquetado de categorías gramaticales

En este artículo no se describen las simulaciones de IA, el aprendizaje de refuerzo profundo y otras formas de inteligencia artificial.

MLOps como área de diseño clave para cargas de trabajo de IA

La planeación e implementación de mlOps y GenAIOps son un área de diseño principal en cargas de trabajo de inteligencia artificial en Azure. Para obtener información general sobre por qué estas cargas de trabajo de aprendizaje automático necesitan operaciones especializadas, consulte MLOps y GenAIOps para cargas de trabajo de IA en Azure en Azure Well-Architected Framework.

Arquitectura

El patrón de arquitectura de MLOps v2 tiene cuatro componentes modulares principales, o fases, del ciclo de vida de MLOps:

Patrimonio de datos
Administración y configuración
Desarrollo de modelos o fase de bucle interno
Implementación del modelo o la fase del bucle externo

Los componentes anteriores, las conexiones entre ellos y los roles típicos implicados son estándar en todas las arquitecturas de escenario de MLOps v2. Las variaciones en los detalles de cada componente dependen del escenario.

La arquitectura base de MLOps v2 para Machine Learning es el escenario de aprendizaje automático clásico para datos tabulares. Las arquitecturas CV y NLP se basan en esta arquitectura base y la modifican.

MLOps v2 trata las siguientes arquitecturas que se describen en este artículo:

Arquitectura clásica de aprendizaje automático
Arquitectura de CV de Machine Learning
Arquitectura de procesamiento de lenguaje natural de Machine Learning

Arquitectura de aprendizaje automático clásico

Descargue un archivo de Visio de esta arquitectura.

Flujo de trabajo para la arquitectura de aprendizaje automático clásico

Patrimonio de datos

Este componente muestra el patrimonio de datos de la organización y los posibles orígenes de datos y destinos para un proyecto de ciencia de datos. Los ingenieros de datos son los propietarios principales de este componente del ciclo de vida de MLOps v2. Las plataformas de datos de Azure de este diagrama no son exhaustivas ni prescriptivas. Una marca de verificación verde indica los orígenes de datos y los destinos que representan procedimientos recomendados basados en el caso de uso del cliente.
Administración y configuración

Este componente es el primer paso de la implementación de la solución mlOps v2. Consta de todas las tareas relacionadas con la creación y administración de recursos y roles asociados al proyecto. Por ejemplo, el equipo de infraestructura podría:
1. Crear repositorios de código fuente del proyecto.
2. Usar Bicep o Terraform para crear áreas de trabajo de Machine Learning.
3. Crear o modificar conjuntos de datos y recursos de proceso para el desarrollo y la implementación de modelos.
4. Definir usuarios del equipo del proyecto, sus roles y controles de acceso a otros recursos.
5. Crear canalizaciones de CI/CD.
6. Crear componentes de supervisión para recopilar y crear alertas para las métricas de modelo e infraestructura.
El rol principal asociado a esta fase es el equipo de infraestructura, pero una organización también podría tener ingenieros de datos, ingenieros de aprendizaje automático o científicos de datos.
Desarrollo de modelos (fase de bucle interno)

La fase de bucle interno consta de un flujo de trabajo de ciencia de datos iterativo que actúa dentro de un área de trabajo de Machine Learning dedicada y segura. En el diagrama anterior se muestra un flujo de trabajo típico. El proceso comienza con la ingesta de datos, se mueve a través del análisis exploratorio de datos, experimentación, desarrollo y evaluación del modelo y, a continuación, registra un modelo para su uso en producción. Este componente modular es independiente y adaptable al proceso que el equipo de ciencia de datos usa para desarrollar modelos.

Entre los roles asociados a esta fase se incluyen científicos de datos e ingenieros de aprendizaje automático.
Registros de Machine Learning

Después de que el equipo de ciencia de datos desarrolle un modelo que se pueda implementar en producción, el modelo se registra en el registro del área de trabajo de Machine Learning. Las canalizaciones de CI que se desencadenan, ya sea automáticamente mediante el registro del modelo o por la intervención humana en el bucle controlada, promueven el modelo y cualquier otra dependencia del modelo a su fase de implementación.

Los roles asociados a esta fase suelen ser ingenieros de aprendizaje automático.
Implementación de modelos (fase de bucle externo)

La fase de implementación del modelo, o bucle externo, consta de almacenamiento provisional y pruebas de preproducción, implementación en producción y supervisión del modelo, los datos y la infraestructura. Cuando el modelo cumple los criterios de la organización y el caso de uso, las canalizaciones de CD promueven el modelo y los recursos relacionados mediante la producción, la supervisión y el posible reentrenamiento.

Los roles asociados a esta fase son principalmente ingenieros de aprendizaje automático.
Almacenamiento provisional y prueba

La fase de almacenamiento provisional y prueba varía según las prácticas del cliente. Esta fase normalmente incluye operaciones como el reentrenamiento y las pruebas del modelo candidato sobre datos de producción, las implementaciones de prueba para el rendimiento del punto de conexión, las comprobaciones de calidad de datos, las pruebas unitarias y las comprobaciones de inteligencia artificial responsable para el modelo y el sesgo de datos. Esta fase tiene lugar en una o varias áreas de trabajo de Machine Learning dedicadas y seguras.
Implementación en producción

Después de que un modelo supere la fase de almacenamiento provisional y prueba, los ingenieros de aprendizaje automático pueden usar la aprobación controlada por intervención humana en el bucle para promoverla a producción. Las opciones de implementación del modelo incluyen un punto de conexión por lotes administrado para escenarios de lote o un punto de conexión en línea administrado o una implementación de Kubernetes que usa Azure Arc para escenarios en línea casi en tiempo real. La fase de producción suele tener lugar en una o varias áreas de trabajo de Machine Learning dedicadas y seguras.
Supervisión

Los ingenieros de aprendizaje automático supervisan los componentes en las fases de almacenamiento provisional, pruebas y producción para recopilar métricas relacionadas con los cambios en el rendimiento del modelo, los datos y la infraestructura. Pueden usar esas métricas para tomar medidas. La supervisión de modelos y datos puede incluir la comprobación del modelo y el desfase de datos, el rendimiento del modelo con los datos nuevos y los problemas de la inteligencia artificial responsable. La supervisión de la infraestructura puede identificar la respuesta lenta del punto de conexión, la capacidad de proceso inadecuada o los problemas de red.
Supervisión de datos y modelos: eventos y acciones

En función de los criterios del modelo y datos, como los umbrales de métricas o las programaciones, los desencadenadores automatizados y las notificaciones pueden implementar las acciones adecuadas que se deben realizar. Por ejemplo, un desencadenador podría volver a entrenar un modelo para usar nuevos datos de producción y, a continuación, volver a realizar bucles en las fases de almacenamiento provisional y prueba de una evaluación de preproducción. O bien, un problema con el modelo o los datos podría desencadenar una acción que necesita un bucle invertido en la fase de desarrollo del modelo en la que los científicos de datos pueden investigar el problema y desarrollar potencialmente un modelo nuevo.
Supervisión de la infraestructura: eventos y acciones

En función de los criterios de la infraestructura, como el retraso de respuesta del punto de conexión o un proceso insuficiente para la implementación, los desencadenadores automatizados y las notificaciones pueden implementar las acciones adecuadas que se deben realizar. Los desencadenadores automáticos y las notificaciones podrían desencadenar un bucle invertido en la fase de instalación y administración en el que el equipo de infraestructura puede investigar el problema y volver a configurar los recursos de proceso y red.

Arquitectura de CV de aprendizaje automático

Descargue un archivo de Visio de esta arquitectura.

Flujo de trabajo para la arquitectura de CV

La arquitectura de CV de Machine Learning se basa en la arquitectura de aprendizaje automático clásica, pero tiene modificaciones que son específicas de los escenarios de CV supervisados.

Patrimonio de datos

Este componente muestra el patrimonio de datos de la organización y los posibles orígenes de datos y destinos para un proyecto de ciencia de datos. Los ingenieros de datos son los propietarios principales de este componente del ciclo de vida de MLOps v2. Las plataformas de datos de Azure de este diagrama no son exhaustivas ni prescriptivas. Las imágenes para escenarios de CV pueden provenir de diversos orígenes de datos. Para mejorar la eficacia al desarrollar e implementar modelos de CV con Machine Learning, se recomienda Azure Blob Storage y Azure Data Lake Storage.
Administración y configuración

Este componente es el primer paso de la implementación de MLOps v2. Consta de todas las tareas relacionadas con la creación y administración de recursos y roles asociados al proyecto. En escenarios de CV, la administración y la configuración del entorno de MLOps v2 es en gran medida la misma que para el aprendizaje automático clásico, pero incluye un paso adicional. El equipo de infraestructura usa la característica de etiquetado de Machine Learning u otra herramienta para crear proyectos de anotación y etiquetado de imágenes.
Desarrollo de modelos (fase de bucle interno)

La fase de bucle interno consta de un flujo de trabajo de ciencia de datos iterativo realizado dentro de un área de trabajo de Machine Learning dedicada y segura. La principal diferencia entre este flujo de trabajo y el escenario de aprendizaje automático clásico es que el etiquetado y la anotación de imágenes son un componente clave de este bucle de desarrollo.
Registros de Machine Learning

Después de que el equipo de ciencia de datos desarrolle un modelo que se pueda implementar en producción, el modelo se registra en el registro del área de trabajo de Machine Learning. Las canalizaciones de CI que se desencadenan automáticamente mediante el registro del modelo o por la intervención humana en el bucle controlada promueven el modelo y cualquier otra dependencia del modelo a su fase de implementación.
Implementación de modelos (fase de bucle externo)

La fase de implementación del modelo, o bucle externo, consta de almacenamiento provisional y pruebas de preproducción, implementación en producción y supervisión del modelo, los datos y la infraestructura. Cuando el modelo cumple los criterios de la organización y el caso de uso, las canalizaciones de CD promueven el modelo y los recursos relacionados mediante la producción, la supervisión y el posible reentrenamiento.
Almacenamiento provisional y prueba

La fase de almacenamiento provisional y prueba varía según las prácticas del cliente. Esta fase normalmente incluye operaciones como las implementaciones de prueba para el rendimiento del punto de conexión, las comprobaciones de calidad de datos, las pruebas unitarias y las comprobaciones de inteligencia artificial responsable para el modelo y el sesgo de datos. En el caso de los escenarios de CV, los ingenieros de aprendizaje automático no necesitan volver a entrenar el modelo candidato con datos de producción debido a limitaciones de tiempo y recursos. En su lugar, el equipo de ciencia de datos puede usar datos de producción para el desarrollo de modelos. El modelo candidato registrado desde el bucle de desarrollo se evalúa para producción. Esta fase tiene lugar en una o varias áreas de trabajo de Machine Learning dedicadas y seguras.
Implementación en producción

Después de que un modelo supere la fase de almacenamiento provisional y prueba, los ingenieros de aprendizaje automático pueden usar la aprobación controlada por intervención humana en el bucle para promoverla a producción. Las opciones de implementación del modelo incluyen un punto de conexión por lotes administrado para escenarios de lote o un punto de conexión en línea administrado o una implementación de Kubernetes que usa Azure Arc para escenarios en línea casi en tiempo real. La fase de producción suele tener lugar en una o varias áreas de trabajo de Machine Learning dedicadas y seguras.
Supervisión

Los ingenieros de aprendizaje automático supervisan los componentes en las fases de almacenamiento provisional, pruebas y producción para recopilar métricas relacionadas con los cambios en el rendimiento del modelo, los datos y la infraestructura. Pueden usar esas métricas para tomar medidas. La supervisión de modelos y datos puede incluir la comprobación del rendimiento del modelo con nuevas imágenes. La supervisión de la infraestructura puede identificar la respuesta lenta del punto de conexión, la capacidad de proceso inadecuada o los problemas de red.
Supervisión de datos y modelos: eventos y acciones

Las fases de supervisión de datos y modelos, y eventos y acciones de MLOps para el procesamiento del lenguaje natural son las diferencias clave con respecto al aprendizaje automático clásico. Normalmente, el reentrenamiento automatizado no se realiza en escenarios de CV cuando se detecta una degradación del rendimiento del modelo con las nuevas imágenes. En este caso, es necesario un proceso con intervención humana para revisar y anotar nuevas imágenes para el modelo que tiene un mal desempeño. La siguiente acción suele ser volver al bucle de desarrollo del modelo para actualizar el modelo con nuevas imágenes.
Supervisión de la infraestructura: eventos y acciones

En función de los criterios de la infraestructura, como el retraso de respuesta del punto de conexión o un proceso insuficiente para la implementación, los desencadenadores automatizados y las notificaciones pueden implementar las acciones adecuadas que se deben realizar. Los desencadenadores automáticos y las notificaciones podrían desencadenar un bucle invertido en la fase de instalación y administración en el que el equipo de infraestructura puede investigar el problema y volver a configurar el entorno y los recursos de proceso y red.

Arquitectura de procesamiento de lenguaje natural de aprendizaje automático

Descargue un archivo de Visio de esta arquitectura.

Flujo de trabajo de la arquitectura de procesamiento del lenguaje natural

La arquitectura de procesamiento del lenguaje natural de Machine Learning se basa en la arquitectura de aprendizaje automático clásica, pero tiene algunas modificaciones que son específicas de los escenarios de NLP.

Patrimonio de datos

Este componente muestra el patrimonio de datos de la organización y los posibles orígenes de datos y destinos para un proyecto de ciencia de datos. Los ingenieros de datos son los propietarios principales de este componente del ciclo de vida de MLOps v2. Las plataformas de datos de Azure de este diagrama no son exhaustivas ni prescriptivas. Una marca de verificación verde indica los orígenes y destinos que representan procedimientos recomendados basados en el caso de uso del cliente.
Administración y configuración

Este componente es el primer paso de la implementación de MLOps v2. Consta de todas las tareas relacionadas con la creación y administración de recursos y roles asociados al proyecto. Para escenarios de procesamiento de lenguaje natural, la administración y la configuración del entorno de MLOps v2 es en gran medida el mismo que para el aprendizaje automático clásico, pero con un paso adicional: crear proyectos de etiquetado y anotación de texto mediante la característica de etiquetado de Machine Learning u otra herramienta.
Desarrollo de modelos (fase de bucle interno)

La fase de bucle interno consta de un flujo de trabajo de ciencia de datos iterativo realizado dentro de un área de trabajo de Machine Learning dedicada y segura. El bucle de desarrollo de modelos NLP típico difiere del escenario de aprendizaje automático clásico en el sentido en que los pasos de desarrollo típicos para este escenario incluyen anotadores para oraciones y tokenización, normalización e inserciones de datos de texto.
Registros de Machine Learning

Después de que el equipo de ciencia de datos desarrolle un modelo que se pueda implementar en producción, el modelo se registra en el registro del área de trabajo de Machine Learning. Las canalizaciones de CI que se desencadenan automáticamente mediante el registro del modelo o por la intervención humana en el bucle controlada promueven el modelo y cualquier otra dependencia del modelo a su fase de implementación.
Implementación de modelos (fase de bucle externo)

La fase de implementación del modelo, o bucle externo, consta de almacenamiento provisional y pruebas de preproducción, implementación en producción y supervisión del modelo, los datos y la infraestructura. Cuando el modelo cumple los criterios de la organización y el caso de uso, las canalizaciones de CD promueven el modelo y los recursos relacionados mediante la producción, la supervisión y el posible reentrenamiento.
Almacenamiento provisional y prueba

La fase de almacenamiento provisional y prueba varía según las prácticas del cliente. Esta fase normalmente incluye operaciones como el reentrenamiento y las pruebas del modelo candidato sobre datos de producción, las implementaciones de prueba para el rendimiento del punto de conexión, las comprobaciones de calidad de datos, las pruebas unitarias y las comprobaciones de inteligencia artificial responsable para el modelo y el sesgo de datos. Esta fase tiene lugar en una o varias áreas de trabajo de Machine Learning dedicadas y seguras.
Implementación en producción

Después de que un modelo supere la fase de almacenamiento provisional y prueba, los ingenieros de aprendizaje automático pueden usar la aprobación controlada por intervención humana en el bucle para promoverla a producción. Las opciones de implementación del modelo incluyen un punto de conexión por lotes administrado para escenarios de lote o un punto de conexión en línea administrado o una implementación de Kubernetes que usa Azure Arc para escenarios en línea casi en tiempo real. La fase de producción suele tener lugar en una o varias áreas de trabajo de Machine Learning dedicadas y seguras.
Supervisión

Los ingenieros de aprendizaje automático supervisan los componentes en las fases de almacenamiento provisional, pruebas y producción para recopilar métricas relacionadas con los cambios en el rendimiento del modelo, los datos y la infraestructura. Pueden usar esas métricas para tomar medidas. La supervisión de modelos y datos puede incluir la comprobación del modelo y el desfase de datos, el rendimiento del modelo con datos de texto nuevos y los problemas de la inteligencia artificial responsable. La supervisión de la infraestructura puede identificar problemas como la respuesta lenta del punto de conexión, la capacidad de proceso inadecuada y problemas de red.
Supervisión de datos y modelos: eventos y acciones

Como sucede con la arquitectura de CV, las fases de supervisión de datos y modelos, y eventos y acciones de MLOps para el procesamiento del lenguaje natural son las diferencias clave con respecto al aprendizaje automático clásico. Normalmente, el reentrenamiento automatizado no se realiza en escenarios de procesamiento del lenguaje natural cuando se detecta una degradación del rendimiento del modelo con el texto nuevo. En este caso, es necesario un proceso de intervención humana en el bucle para revisar y anotar nuevos datos de texto para el modelo que no funciona correctamente. A menudo, la siguiente acción es volver al bucle de desarrollo del modelo para actualizar el modelo con los nuevos datos de texto.
Supervisión de la infraestructura: eventos y acciones

En función de los criterios de la infraestructura, como el retraso de respuesta del punto de conexión o un proceso insuficiente para la implementación, los desencadenadores automatizados y las notificaciones pueden implementar las acciones adecuadas que se deben realizar. Los desencadenadores automáticos y las notificaciones podrían desencadenar un bucle invertido en la fase de instalación y administración en el que el equipo de infraestructura puede investigar el problema y volver a configurar los recursos de proceso y red.

Componentes

Machine Learning es un servicio en la nube que puede usar para entrenar, puntuar, implementar y administrar modelos de aprendizaje automático a escala.
Azure Pipelines es un sistema de compilación y prueba basado en Azure DevOps y que se usa para canalizaciones de compilación y versión. Azure Pipelines divide estas canalizaciones en pasos lógicos denominados tareas.
GitHub es una plataforma de hospedaje de código para los flujos de trabajo de CI/CD, colaboración y control de versiones.
Azure Arc es una plataforma que usa Azure Resource Manager para administrar recursos de Azure y recursos locales. Los recursos pueden incluir máquinas virtuales, clústeres de Kubernetes y bases de datos.
Kubernetes es un sistema de código abierto que puede usar para automatizar la implementación, el escalado y la administración de aplicaciones en contenedor.
Azure Data Lake Storage es un sistema de archivos compatible con Hadoop. Tiene un espacio de nombres jerárquico integrado y la escala y economía masivas de Blob Storage.
Azure Synapse Analytics es un servicio de análisis ilimitado que reúne la integración de datos, el almacenamiento de datos empresariales y el análisis de macrodatos.
Azure Event Hubs es un servicio que ingiere flujos de datos que generan las aplicaciones cliente. Después, ingiere y almacena los datos de streaming, que conservan la secuencia de los eventos recibidos. Los clientes pueden conectarse a los puntos de conexión del centro para recuperar mensajes para su procesamiento. Esta arquitectura usa la integración de Data Lake Storage.

Otras consideraciones

El patrón de arquitectura de MLOps v2 anterior tiene varios componentes críticos, incluido el control de acceso basado en roles (RBAC) que se alinea con las partes interesadas del negocio, la administración eficaz de paquetes y mecanismos de supervisión sólidos. Estos componentes contribuyen colectivamente a la correcta implementación y administración de flujos de trabajo de aprendizaje automático.

RBAC basado en personas

Es fundamental administrar el acceso a los datos y recursos de aprendizaje automático. RBAC proporciona un marco sólido para ayudarle a administrar quién puede realizar acciones específicas y acceder a áreas específicas dentro de la solución. Diseñe la estrategia de segmentación de identidades para alinearse con el ciclo de vida de los modelos de aprendizaje automático en Machine Learning y las personas incluidas en el proceso. Cada persona tiene un conjunto específico de responsabilidades que se reflejan en sus roles de RBAC y pertenencia a grupos.

Personas de ejemplo

Para admitir la segmentación adecuada en una carga de trabajo de aprendizaje automático, tenga en cuenta las siguientes personas comunes que influyen en el diseño de grupos RBAC basado en identidades.

Científico de datos e ingeniero de aprendizaje automático

Los científicos de datos e ingenieros de aprendizaje automático realizan diversas actividades de aprendizaje automático y ciencia de datos en el ciclo de vida de desarrollo de software de un proyecto. Sus tareas incluyen el análisis exploratorio de datos y el preprocesamiento de datos. Los científicos de datos e ingenieros de aprendizaje automático son responsables de entrenar, evaluar e implementar modelos. Las responsabilidades de estos roles también incluyen actividades de corrección de interrupción para modelos, paquetes y datos de Machine Learning. Estas tareas están fuera del ámbito del equipo de soporte técnico de la plataforma.