Automatización de la programación y la expedición en la fabricación de semiconductores

Azure Kubernetes Service (AKS)

Azure Virtual Network

Archivos de Azure

Azure Container Registry

En este artículo se muestra la automatización de la programación y el envío de cargas de trabajo de fabricación de semiconductores en Azure. La solución usa un entorno de informática de alto rendimiento (HPC) para realizar el aprendizaje de refuerzo (RL) a gran escala. La arquitectura se basa en minds.ai Maestro, un conjunto de productos de fabricación de semiconductores.

Architecture

Descargue un archivo de PowerPoint de esta arquitectura.

Flujo de trabajo

Este flujo de trabajo proporciona información general de alto nivel de la arquitectura que se usa para el entrenamiento de RL.

Los usuarios finales interactúan con el sistema de administración Maestro a través de una API de REST que se ejecuta en Azure Kubernetes Service (AKS). Pueden interactuar con el sistema de varias maneras:
- API de Python
- Interfaz de usuario basada en web
- Cliente de línea de comandos
Maestro programa los trabajos de entrenamiento en un clúster de Kubernetes.
Maestro invoca Kubernetes para asignar pods a los grupos de nodos pertinentes. AKS escala o reduce verticalmente los grupos de nodos según sea necesario. Maestro asigna los pods a grupos de nodos específicos en función de una configuración especificada por el usuario. El usuario puede seleccionar:
- Nodos normales o de acceso puntual.
- Nodos de CPU o GPU.
Kubernetes extrae la imagen de contenedor de Azure Container Registry, según la configuración definida por Maestro e inicializa los pods.
Durante el entrenamiento, los resultados se almacenan en Azure Files y el sistema de seguimiento de métricas que forma parte de los pods de administración de Maestro (y respaldados por un dispositivo de almacenamiento adicional). El usuario supervisa el progreso del trabajo mediante el panel Maestro.
Una vez completado el entrenamiento, el agente de RL se inserta en el sistema de implementación, donde se puede consultar para las acciones. Opcionalmente, el servidor de implementación puede notificar estadísticas de supervisión a la plataforma Maestro para optimizar aún más al agente a través de Azure Files.

Componentes

AKS es un servicio de orquestación de contenedores administrado basado en el sistema Kubernetes de código abierto. Puede usar AKS para controlar la funcionalidad crítica, como la implementación, el escalado y la administración de contenedores de Docker y aplicaciones basadas en contenedores.
El motor Maestro (nombre en clave DeepSim) aumenta los flujos de trabajo existentes en la fábrica y mejora los indicadores clave de rendimiento de la fábrica de semiconductores con recomendaciones de planificación y despacho mejoradas por IA.
Azure Spot Virtual Machines aprovisiona la capacidad de procesamiento de Azure no utilizada con un importante descuento. Las máquinas virtuales de acceso puntual ofrecen los mismos tipos de máquina, opciones y rendimiento que las instancias de proceso normales.
Las cuentas de almacenamiento de Azure se usan en esta arquitectura para almacenar los resultados de entrenamiento, la entrada y los datos de configuración.
Los discos administrados de Azure son dispositivos de almacenamiento en bloque duraderos y de alto rendimiento que están diseñados para utilizarse con Azure Virtual Machines y Azure VMware Solution.
Azure Virtual Network permite que los recursos de Azure, como las máquinas virtuales, se comuniquen entre sí, con Internet y con las redes locales a través de una conexión de seguridad mejorada.
Azure Files proporciona recursos compartidos de archivos totalmente administrados en la nube a los que se puede acceder mediante los protocolos SMB y NFS estándar del sector.
Azure Container Registry puede ayudarle a crear, almacenar, explorar, replicar y administrar imágenes y artefactos de contenedores con una instancia georreplicada de distribución OCI totalmente administrada.

Detalles del escenario

El modelado de herramientas eficaz y los métodos de programación y distribución eficaces son fundamentales para los fabricantes.

Para aprovechar las ventajas de las soluciones de inteligencia artificial y aprendizaje automático de vanguardia, las empresas necesitan una infraestructura de HPC escalable y rentable. La ejecución de cargas de trabajo muy complejas puede tardar días en completarse con infraestructuras locales. Los sistemas locales también suelen ser menos eficientes de energía que las soluciones de Azure.

minds.ai, asociado de Microsoft, creó la solución de programación y envío Maestro para ayudar a las empresas de fabricación de semiconductores a optimizar los indicadores clave de rendimiento (KPI) de fabricación de wafer.

Esta solución usa AKS para implementar, administrar y escalar aplicaciones basadas en contenedores en un entorno de clúster. Una API de REST se usa para proporcionar una interfaz fácil de usar a AKS. Puede usar Container Registry para compilar, almacenar y administrar imágenes de contenedor como DeepSim. Los contenedores tienen alta portabilidad y aumentan la agilidad de los flujos de trabajo a petición.

La arquitectura de la solución descrita en este artículo se aplica a los siguientes escenarios.

RL para la programación de fábricas

Esta solución puede ayudar a los ingenieros de control de líneas a mejorar el tiempo de ciclo, el rendimiento y la utilización de los productos y a liberar ancho de banda de recursos mediante la automatización y el aumento de los flujos de trabajo actuales. La solución puede aumentar el flujo de trabajo con agentes de IA entrenados mediante RL para ofrecer a los ingenieros de fabricación más información y opciones para mejorar los KPI.

La solución usa RL para entrenar modelos. Las soluciones implementadas se entrenan, en simulaciones, para responder rápidamente a los estados dinámicos del fabricante. El flujo de trabajo genera automáticamente recomendaciones de programación.

En un escenario real, los programas resultantes ahorraron a una empresa decenas de millones de dólares al año:

Aumento del rendimiento entre un 1 y un 2 %.
Reducción de las infracciones de los tiempos de cola críticos entre un 1 y un 2 %.
Reducción de la duración del ciclo de nuevos productos entre un 2 y un 7%.
Mejora de la utilización de grupos de herramientas con cuellos de botella.
Reducción del costo por wafer.

Aprendizaje supervisado para el modelado de herramientas de fabricación

Obtener información precisa sobre herramientas y equipos es otro aspecto crítico de la planificación y el funcionamiento de una fábrica. Los requisitos empresariales suelen incluir modelos para medir la confiabilidad y la previsibilidad de las herramientas, incluido el Índice de mantenimiento de equipos (EHI) y la vida útil restante (RUL).

Maestro incluye aplicaciones para entrenar modelos EHI y RUL. Los datos históricos del sistema de registro de la fábrica se utilizan para entrenar los modelos. El hardware de GPU de Azure acelera este proceso. Los modelos resultantes se utilizan para la programación en función del riesgo con el fin de optimizar la productividad, el rendimiento y el mantenimiento preventivo y mejorar significativamente el EHI.

Posibles casos de uso

Esta arquitectura también se aplica a los siguientes sectores, en los que normalmente se usan soluciones de control y programación avanzadas:

Industria 4.0
Viajes y transporte (desarrollo de aplicaciones)
Farmacia y salud
Control de energía renovable y diseño de sitios multivariante

Consideraciones

Estas consideraciones implementan los pilares del Azure Well-Architected Framework, que es un conjunto de principios rectores que puede utilizar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Confiabilidad

La confiabilidad garantiza que tu aplicación puede cumplir los compromisos contraídos con los clientes. Para más información, consulte Resumen del pilar de fiabilidad.

Las soluciones minds.ai se implementan en algunos de los procesos más complejos y críticos del mundo para la producción de chips y energía, por lo que la confiabilidad es esencial. En la plataforma Azure, puede mantener estables los entornos en ejecución mediante zonas de disponibilidad, conjuntos de disponibilidad, almacenamiento con redundancia geográfica y Azure Site Recovery. Si se detectan problemas, el sistema reinicia automáticamente parte del entorno de proceso y reinicia el proceso de entrenamiento. Esta funcionalidad ayuda a garantizar que se obtiene un agente entrenado o un modelo de red neuronal dentro del período de tiempo esperado.

Este sistema aumenta las soluciones existentes, por lo que siempre puede recurrir a esas soluciones.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

Esta solución se implementa como una solución de un solo inquilino. Usted mantiene el control exclusivo del software, los datos y las simulaciones en curso.

AKS proporciona control de acceso basado en roles (RBAC), que le ayuda a garantizar que los ingenieros solo puedan acceder a la información que necesitan para realizar su trabajo.

Para obtener más información sobre las opciones de seguridad de red, consulte Proteger el tráfico entre pods mediante directivas de red en AKS.

Optimización de costos

La optimización de costos trata de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Las ejecuciones de entrenamiento Maestro pueden funcionar de forma interrumpible, lo que permite dos opciones:

Las máquinas virtuales de acceso puntual reducen los costos, pero aumentan la posibilidad de que los trabajos tardan más tiempo en finalizar debido a interrupciones.
Las instancias reservadas aumentan los costos, pero utilizan recursos informáticos dedicados que dan como resultado tiempos de ejecución predecibles.

Puede utilizar Spot Virtual Machines para aprovechar la capacidad no utilizada de Azure con un importante ahorro de costos. Si Azure necesita la capacidad de vuelta, expulsa las máquinas virtuales de acceso puntual y el software de minds.ai inicia automáticamente nuevas instancias y reanuda el proceso de entrenamiento.

No hay costos asociados con la implementación de AKS, la administración y las operaciones del clúster Kubernetes. Solo paga por las instancias de máquinas virtuales, el almacenamiento y los recursos de red consumidos por su clúster de Kubernetes. Azure Files se usa para el almacenamiento de datos a largo plazo. Como todos los datos permanecen en la nube, se reducen los costos de ancho de banda de transferencia de datos.

A continuación se muestran algunos detalles sobre los casos de uso de CPU y GPU.

Caso de uso de CPU: Se utilizan 10 agentes RL funcionando durante un mes en 20 nodos, con 120 núcleos de CPU por nodo, con un tiempo de procesamiento de 360 horas (2.400 núcleos de CPU).

Para ahorrar hasta un 83 % del costo, utilice Azure Spot Virtual Machines.

Categoría del servicio	Tipo de servicio	Descripción
Compute	Máquinas virtuales	Una máquina virtual Standard_HB120rs_v3 (120 núcleos, 448 GiB de RAM)
Compute	Máquinas virtuales	Una máquina virtual Standard_B8ms (8 núcleos, 32 GiB de RAM)
Storage	Cuentas de almacenamiento	Almacenamiento de archivos, nivel de rendimiento premium
Storage	Cuentas de almacenamiento	Discos administrados, SSD prémium, tipo de disco P4, un disco
Contenedores	Container Registry	Un registro
Compute	Máquinas virtuales	20 máquinas virtuales Standard_HB120rs_v3 (120 núcleos, 448 GiB de RAM)

Caso de uso de GPU: el aprendizaje supervisado de 10 trabajos de entrenamiento de red neuronal que se ejecutan durante un mes en 16 nodos, con una GPU por nodo, se usa con un tiempo de proceso de 360 horas (16 GPU).

Para ahorrar hasta un 52 % del costo, utilice Azure Spot Virtual Machines.

Categoría del servicio	Tipo de servicio	Descripción
Compute	Máquinas virtuales	Una máquina virtual Standard_HB120_rs v3 (120 núcleos, 448 GiB de RAM)
Compute	Máquinas virtuales	Una máquina virtual Standard_B8ms (8 núcleos, 32 GiB de RAM)
Storage	Cuentas de almacenamiento	Almacenamiento de archivos, nivel de rendimiento premium
Storage	Cuentas de almacenamiento	Discos administrados, SSD prémium, tipo de disco P4, un disco
Contenedores	Container Registry	Un registro
Compute	Máquinas virtuales	16 máquinas virtuales Standard_NC6s_v3 (6 vCPU, 112 GiB de RAM)

Para estimar los costos para su organización, utilice la calculadora de precios de Azure.

Eficiencia del rendimiento

La eficiencia del rendimiento es la capacidad que tiene la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que se hayan realizado sobre ella. Para obtener más información, vea Resumen del pilar de eficiencia del rendimiento.

Esta arquitectura usa máquinas virtuales de la serie HBv3 con CPU AMD para el aprendizaje de refuerzo y las máquinas virtuales de la serie NCv3 con GPU nvidia para el aprendizaje supervisado.

Las máquinas virtuales de la serie HBv3 disponen de procesadores de procesamiento intensivo y memoria de gran ancho de banda, idóneos para el aprendizaje por refuerzo. Puede usarlos en configuraciones de clúster de varios nodos para lograr un rendimiento escalable.

Las máquinas virtuales de la serie NCv3 disponen de procesadores de procesamiento intensivo acelerados por GPU que se adaptan perfectamente a las exigencias del aprendizaje supervisado. Pueden usar funcionalidades de varias GPU para lograr un rendimiento escalable.

Para más información, consulte Opciones de escalado para aplicaciones en AKS.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Kalaiselvan Balaraman | Arquitecto de soluciones en la nube
Mahaboob Basha R | Arquitecto de soluciones en la nube
Jeroen Bédorf | Arquitecto jefe
Thomas Soule | Director de desarrollo empresarial

Otros colaboradores:

Mick Alberts | Escritor técnico
Hari Bagudu | Administrador sénior
Gauhar Junnarkar | Administrador de programas principal
Sachin Rastogi | Jefe de programa

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Automatización de la programación y la expedición en la fabricación de semiconductores

Architecture

Flujo de trabajo

Componentes

Detalles del escenario

RL para la programación de fábricas

Aprendizaje supervisado para el modelado de herramientas de fabricación

Posibles casos de uso

Consideraciones

Confiabilidad

Seguridad

Optimización de costos

Eficiencia del rendimiento

Colaboradores

Pasos siguientes

Comentarios

Comentarios

Recursos adicionales

Automatización de la programación y la expedición en la fabricación de semiconductores

Architecture

Flujo de trabajo

Componentes

Detalles del escenario

RL para la programación de fábricas

Aprendizaje supervisado para el modelado de herramientas de fabricación

Posibles casos de uso

Consideraciones

Confiabilidad

Seguridad

Optimización de costos

Eficiencia del rendimiento

Colaboradores

Pasos siguientes

Recursos relacionados

Comentarios

Comentarios

Recursos adicionales