Acelerador de zonas de aterrizaje de informática de alto rendimiento (HPC) de Azure

2025-07-14

El acelerador de zonas de aterrizaje de informática de alto rendimiento (HPC) automatiza la implementación de un entorno. Este entorno proporciona un marco base que puede personalizar para crear un mecanismo de implementación de un extremo a otro para una solución de clúster de HPC completa en Azure. El acelerador es una colección de scripts y plantillas de código abierto que pueden preparar las zonas de aterrizaje a escala empresarial. Puede proporcionar un enfoque arquitectónico específico y una implementación de referencia que cumpla la arquitectura y los procedimientos recomendados de Cloud Adoption Framework.

Los clientes adoptan HPC de varias maneras para adecuarse a sus necesidades empresariales, y puedes adaptar el acelerador de la zona de inicio de HPC para generar una arquitectura que se ajuste a tu manera. El uso del acelerador ayuda a poner su organización en el camino hacia una escala sostenible.

Implementación de una zona de aterrizaje a escala empresarial

El acelerador de zonas de aterrizaje de HPC supone que está empezando por una zona de aterrizaje a escala empresarial que se ha implementado correctamente. Para obtener más información sobre este requisito previo, consulte los artículos siguientes:

¿Qué proporciona el acelerador de zonas de aterrizaje de HPC?

El enfoque para las zonas de aterrizaje del acelerador de zonas de aterrizaje de HPC proporciona los siguientes recursos al proyecto:

Directrices de diseño para ayudar a evaluar las decisiones críticas
La arquitectura de la zona de aterrizaje
Una implementación que incluye:
- Una referencia que se puede implementar capaz de crear el entorno para la implementación de HPC
- Una implementación de referencia de HPC aprobada por Microsoft para probar el entorno implementado

Directrices de diseño para energía, fabricación y finanzas

Las arquitecturas de las zonas de aterrizaje varían según el sector empresarial, además de variar según la organización. En esta sección se enumeran los artículos que proporcionan directrices para crear la zona de aterrizaje:

Directrices de diseño para elegir el cómputo de HPC para cargas de trabajo de IA

Seleccionar la SKU correcta del proceso optimizado para GPU para cargas de trabajo de IA es importante para optimizar el rendimiento y controlar los costos. Microsoft proporciona muchas SKU diferentes optimizadas para cargas de trabajo que se benefician de más potencia de GPU. Hay varias consideraciones al elegir la SKU adecuada para cargas de trabajo de IA. Las cargas de trabajo más pequeñas solo pueden aprovechar una fracción de la CPU, la GPU y el ancho de banda de SKU más eficaces, como NDv6. Es posible que quiera considerar otros SKU de cómputo como NCv4 y NDv4 para trabajos más pequeños. Tenga en cuenta los siguientes factores al elegir la SKU correcta de proceso optimizado para GPU para cargas de trabajo de IA:

Puntos de control. Tenga en cuenta factores como el intervalo de punto de comprobación al ejecutar los modelos de Machine Learning. Esto puede afectar al rendimiento de la GPU durante la fase de entrenamiento. Lograr un equilibrio entre la eficiencia del almacenamiento y el mantenimiento de operaciones fluidas de GPU. Supervise el uso de la GPU.
Inferencia. Los requisitos de inferencia difieren de los requisitos de entrenamiento, con una carga de CPU más alta posible que puede maximizar el rendimiento de la CPU. Tenga en cuenta los requisitos de inferencia de su modelo al seleccionar un SKU de cómputo. Supervise el uso de la CPU.
Adiestramiento. Tenga en cuenta los requisitos del modelo durante el entrenamiento, supervisando el uso de cpu y GPU.
Dimensionamiento del trabajo. Al considerar la SKU de proceso para las cargas de trabajo de IA, tenga en cuenta el tamaño del trabajo. Es posible que los trabajos más pequeños, como los de aproximadamente OPT 1.3B, no aprovechen los tamaños de SKU más grandes y puedan dejar inactivos los recursos de CPU y GPU según la fase del trabajo (inferencia, entrenamiento).
Ancho de banda. El ancho de banda de latencia más grande y menor puede ser un gasto cuando no se utiliza. Considere InfiniBand solo para los modelos más grandes que requerirán el ancho de banda adicional.

Vea los tamaños de máquina virtual optimizadas para GPU de Azure.

Ejemplo: arquitectura de referencia conceptual para energía

La siguiente arquitectura de referencia conceptual es un ejemplo que muestra áreas de diseño y procedimientos recomendados para entornos energéticos .

Ejemplo: arquitectura de referencia conceptual para finanzas

La siguiente arquitectura de referencia conceptual es un ejemplo que muestra áreas de diseño y procedimientos recomendados para entornos financieros .

Ejemplo: arquitectura de referencia conceptual para fabricación

La siguiente arquitectura de referencia conceptual es un ejemplo que muestra áreas de diseño y procedimientos recomendados para entornos de fabricación .

Obtención del acelerador de zona de aterrizaje de HPC

Para implementar el acelerador de zonas de aterrizaje de HPC, use Azure Marketplace o la CLI de Azure.

Para realizar la implementación mediante Azure Marketplace, consulte Implementación de un área de trabajo de Azure CycleCloud para Slurm mediante Azure Marketplace.
Para realizar la implementación a través de la CLI, consulte Implementación de un área de trabajo de Azure CycleCloud para el entorno de Slurm mediante la CLI.

Para más información sobre esta solución de acelerador, consulte Área de trabajo de Azure CycleCloud para Slurm.

Pasos siguientes

Para conocer las consideraciones y recomendaciones para la arquitectura del acelerador de zonas de aterrizaje de HPC, revise las áreas de diseño críticas del acelerador de zonas de aterrizaje de HPC en Azure Identity and Access Management.