Acelerador de zona de aterrizaje de informática de alto rendimiento (HPC) de Azure
El acelerador de zonas de aterrizaje de informática de alto rendimiento (HPC) automatiza la implementación de un entorno. Este entorno proporciona un marco base que puede personalizar para crear un mecanismo de implementación de un extremo a otro para una solución de clúster de HPC completa en Azure. El acelerador es una colección de plantillas y scripts de código abierto que pueden preparar las zonas de aterrizaje de escala empresarial. Puede proporcionar un enfoque arquitectónico específico y una implementación de referencia que cumplan la arquitectura y los procedimientos recomendados de Cloud Adoption Framework.
Los clientes adoptan HPC de varias maneras para satisfacer sus necesidades empresariales y puede adaptar el acelerador de zonas de aterrizaje de HPC para generar una arquitectura que se adapte a su manera. El uso del acelerador ayuda a encaminar a su organización hacia una escala sostenible.
Implementación de una zona de aterrizaje de escala empresarial
El acelerador de zonas de aterrizaje de HPC supone que está empezando por una zona de aterrizaje a escala empresarial que se ha implementado correctamente. Para más información sobre estos requisitos previos, consulte los siguientes artículos:
- Empiece a utilizar las zonas de aterrizaje de escala empresarial de Cloud Adoption Framework
- Implementación de zonas de aterrizaje a escala empresarial de Cloud Adoption Framework en Azure
¿Qué proporciona el acelerador de zonas de aterrizaje de HPC?
El enfoque para las zonas de aterrizaje del acelerador de zonas de aterrizaje de HPC proporciona los siguientes recursos al proyecto:
- Un enfoque modular, para que pueda personalizar las variables de entorno
- Directrices de diseño para ayudar a evaluar las decisiones críticas
- La arquitectura de la zona de aterrizaje
- Una implementación que incluye:
- Una referencia que se puede implementar capaz de crear el entorno para la implementación de HPC
- Una implementación de referencia de HPC aprobada por Microsoft para probar el entorno implementado
Pautas de diseño para los sectores de la energía, la fabricación y las finanzas
Las arquitecturas de las zonas de aterrizaje varían según el sector empresarial y en función de la organización. En esta sección se enumeran artículos por sector que proporcionan pautas para crear la zona de aterrizaje:
Energía (petróleo y gas)
- Facturación de Azure e inquilinos de Microsoft Entra para HPC en el sector energético
- Administración de identidades y acceso para HPC de Azure en el sector energético
- Administración para HPC de Azure en el sector energético
- Topología de red y conectividad para HPC de Azure en el sector energético
- Automatización de la plataforma y DevOps para HPC de Azure en el sector energético
- Organización de recursos para HPC en el sector energético
- Gobernanza para HPC en los sectores energéticos
- Seguridad para HPC de Azure en el sector energético
- Proceso de cargas de trabajo de aplicaciones de HPC a gran escala en VM de Azure
- Almacenamiento para entornos del sector energético de HPC
Fabricación
- Facturación de Azure e inquilinos de Active Directory para HPC en el sector de fabricación
- Administración de identidades y acceso de Azure para HPC en el sector de fabricación
- Administración para HPC en el sector de fabricación
- Conectividad y topología de red de HPC en el sector de fabricación
- Automatización de la plataforma y DevOps para HPC de Azure en el sector de fabricación
- Organización de recursos de HPC en el sector de fabricación
- Gobernanza en Azure para HPC en fabricación
- Seguridad de HPC en los sectores de fabricación
- Almacenamiento de HPC en el sector de fabricación
Finance
- Ofertas de facturación de Azure e inquilinos de Active Directory para HPC en finanzas
- Administración de identidad y acceso de Azure para HPC en el sector financiero
- Administración para HPC en el sector financiero
- Topología y conectividad de red para HPC en el sector financiero
- Automatización de la plataforma y DevOps para HPC en el sector financiero
- Organización de recursos para HPC en Azure en el sector financiero
- Gobernanza de HPC en finanzas
- Seguridad para HPC en el sector financiero
- Almacenamiento para HPC en el sector financiero
Directrices de diseño para elegir el proceso de HPC para cargas de trabajo de inteligencia artificial
Elegir la SKU adecuada del proceso optimizado para GPU para cargas de trabajo de IA es importante para optimizar el rendimiento y controlar los costos. Microsoft ofrece muchas SKU diferentes optimizadas para cargas de trabajo que se benefician de más potencia de GPU. Hay varias consideraciones al elegir la SKU adecuada para cargas de trabajo de IA. Las cargas de trabajo más pequeñas solo pueden aprovechar una fracción de la CPU, la GPU y el ancho de banda de SKU más eficaces, como NDv4. Puede considerar otras SKU de proceso, como NCv4 y NDv2, para trabajos más pequeños. Estas son algunas consideraciones al elegir la SKU adecuada del proceso optimizado para GPU para cargas de trabajo de IA:
- Puntos de control. Tenga en cuenta factores como el intervalo de punto de comprobación al ejecutar los modelos de Machine Learning. Esto puede afectar al rendimiento de la GPU durante la fase de entrenamiento. Equilibrio entre la eficiencia del almacenamiento y el mantenimiento de operaciones fluidas de GPU. Supervise el uso de la GPU.
- Inferencia. Los requisitos de inferencia difieren de los requisitos de entrenamiento, con una carga de CPU posible mayor que puede maximizar el rendimiento de la CPU. Tenga en cuenta los requisitos de inferencia del modelo al seleccionar una SKU de proceso. Supervise el uso de la CPU.
- Entrenamiento. Tenga en cuenta los requisitos del modelo durante el entrenamiento, supervisando tanto el uso de la CPU como de la GPU.
- Ajuste de tamaño del trabajo. Al considerar la SKU de proceso para las cargas de trabajo de IA, tenga en cuenta el tamaño del trabajo. Es posible que los trabajos más pequeños, como los que aproximadamente OPT 1.3B no aprovechen los tamaños de SKU más grandes y puedan dejar inactiva la CPU y la energía de GPU en función de la fase del trabajo (inferencia, entrenamiento).
- Ancho de banda. El ancho de banda de latencia mayor y menor puede ser un gasto cuando no se utiliza. Considere InfiniBand solo para los modelos más grandes que requerirán el ancho de banda adicional.
Vea los Tamaños de máquinas virtuales optimizadas para GPU de Azure.
Ejemplo: arquitectura de referencia conceptual para energía
La siguiente arquitectura de referencia conceptual es un ejemplo que muestra las áreas de diseño y los procedimientos recomendados para los entornos de energía.
Ejemplo: arquitectura de referencia conceptual para finanzas
La siguiente arquitectura de referencia conceptual es un ejemplo que muestra las áreas de diseño y los procedimientos recomendados para los entornos de finanzas.
Ejemplo: arquitectura de referencia conceptual para fabricación
La siguiente arquitectura de referencia conceptual es un ejemplo que muestra las áreas de diseño y los procedimientos recomendados para los entornos de fabricación.
Obtención del acelerador de zona de aterrizaje de HPC
El acelerador de zonas de aterrizaje de HPC está disponible en GitHub: Acelerador de Azure HPC OnDemand Platform
Pasos siguientes
Para conocer las consideraciones y recomendaciones para la arquitectura del acelerador de zonas de aterrizaje de HPC, revise las áreas de diseño críticas de dicho acelerador en Administración de identidades y accesos de Azure.