Acelerador de zona de aterrizaje de informática de alto rendimiento (HPC) de Azure

2023-10-10

El acelerador de zonas de aterrizaje de informática de alto rendimiento (HPC) automatiza la implementación de un entorno. Este entorno proporciona un marco base que puede personalizar para crear un mecanismo de implementación de un extremo a otro para una solución de clúster de HPC completa en Azure. El acelerador es una colección de plantillas y scripts de código abierto que pueden preparar las zonas de aterrizaje de escala empresarial. Puede proporcionar un enfoque arquitectónico específico y una implementación de referencia que cumplan la arquitectura y los procedimientos recomendados de Cloud Adoption Framework.

Los clientes adoptan HPC de varias maneras para satisfacer sus necesidades empresariales y puede adaptar el acelerador de zonas de aterrizaje de HPC para generar una arquitectura que se adapte a su manera. El uso del acelerador ayuda a encaminar a su organización hacia una escala sostenible.

Implementación de una zona de aterrizaje de escala empresarial

El acelerador de zonas de aterrizaje de HPC supone que está empezando por una zona de aterrizaje a escala empresarial que se ha implementado correctamente. Para más información sobre estos requisitos previos, consulte los siguientes artículos:

¿Qué proporciona el acelerador de zonas de aterrizaje de HPC?

El enfoque para las zonas de aterrizaje del acelerador de zonas de aterrizaje de HPC proporciona los siguientes recursos al proyecto:

Un enfoque modular, para que pueda personalizar las variables de entorno
Directrices de diseño para ayudar a evaluar las decisiones críticas
La arquitectura de la zona de aterrizaje
Una implementación que incluye:
- Una referencia que se puede implementar capaz de crear el entorno para la implementación de HPC
- Una implementación de referencia de HPC aprobada por Microsoft para probar el entorno implementado

Pautas de diseño para los sectores de la energía, la fabricación y las finanzas

Las arquitecturas de las zonas de aterrizaje varían según el sector empresarial y en función de la organización. En esta sección se enumeran artículos por sector que proporcionan pautas para crear la zona de aterrizaje:

Directrices de diseño para elegir el proceso de HPC para cargas de trabajo de inteligencia artificial

Elegir la SKU adecuada del proceso optimizado para GPU para cargas de trabajo de IA es importante para optimizar el rendimiento y controlar los costos. Microsoft ofrece muchas SKU diferentes optimizadas para cargas de trabajo que se benefician de más potencia de GPU. Hay varias consideraciones al elegir la SKU adecuada para cargas de trabajo de IA. Las cargas de trabajo más pequeñas solo pueden aprovechar una fracción de la CPU, la GPU y el ancho de banda de SKU más eficaces, como NDv4. Puede considerar otras SKU de proceso, como NCv4 y NDv2, para trabajos más pequeños. Estas son algunas consideraciones al elegir la SKU adecuada del proceso optimizado para GPU para cargas de trabajo de IA:

Puntos de control. Tenga en cuenta factores como el intervalo de punto de comprobación al ejecutar los modelos de Machine Learning. Esto puede afectar al rendimiento de la GPU durante la fase de entrenamiento. Equilibrio entre la eficiencia del almacenamiento y el mantenimiento de operaciones fluidas de GPU. Supervise el uso de la GPU.
Inferencia. Los requisitos de inferencia difieren de los requisitos de entrenamiento, con una carga de CPU posible mayor que puede maximizar el rendimiento de la CPU. Tenga en cuenta los requisitos de inferencia del modelo al seleccionar una SKU de proceso. Supervise el uso de la CPU.
Entrenamiento. Tenga en cuenta los requisitos del modelo durante el entrenamiento, supervisando tanto el uso de la CPU como de la GPU.
Ajuste de tamaño del trabajo. Al considerar la SKU de proceso para las cargas de trabajo de IA, tenga en cuenta el tamaño del trabajo. Es posible que los trabajos más pequeños, como los que aproximadamente OPT 1.3B no aprovechen los tamaños de SKU más grandes y puedan dejar inactiva la CPU y la energía de GPU en función de la fase del trabajo (inferencia, entrenamiento).
Ancho de banda. El ancho de banda de latencia mayor y menor puede ser un gasto cuando no se utiliza. Considere InfiniBand solo para los modelos más grandes que requerirán el ancho de banda adicional.

Vea los Tamaños de máquinas virtuales optimizadas para GPU de Azure.

Ejemplo: arquitectura de referencia conceptual para energía

La siguiente arquitectura de referencia conceptual es un ejemplo que muestra las áreas de diseño y los procedimientos recomendados para los entornos de energía.

Ejemplo: arquitectura de referencia conceptual para finanzas

La siguiente arquitectura de referencia conceptual es un ejemplo que muestra las áreas de diseño y los procedimientos recomendados para los entornos de finanzas.

Ejemplo: arquitectura de referencia conceptual para fabricación

La siguiente arquitectura de referencia conceptual es un ejemplo que muestra las áreas de diseño y los procedimientos recomendados para los entornos de fabricación.

Obtención del acelerador de zona de aterrizaje de HPC

El acelerador de zonas de aterrizaje de HPC está disponible en GitHub: Acelerador de Azure HPC OnDemand Platform

Pasos siguientes

Para conocer las consideraciones y recomendaciones para la arquitectura del acelerador de zonas de aterrizaje de HPC, revise las áreas de diseño críticas de dicho acelerador en Administración de identidades y accesos de Azure.

Compartir vía