Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se presentan las pruebas comparativas de HPC-AI en Azure. Está diseñado para arquitectos, ingenieros y responsables de la toma de decisiones que necesitan:
- Evaluación de la infraestructura de Azure para cargas de trabajo nuevas o existentes
- Establecer líneas base de rendimiento
- Comparación de familias de máquinas virtuales con datos objetivos
- Optimización del rendimiento y la rentabilidad
¿Por qué es importante la realización de pruebas comparativas?
La evaluación comparativa proporciona información basada en evidencia que respalda decisiones técnicas y empresariales. Sirve varios propósitos críticos para cargas de trabajo de HPC e IA:
- Elija la infraestructura adecuada: haga coincidir las características de la carga de trabajo con la familia de máquinas virtuales de Azure más adecuada.
- Validar el rendimiento: confirme que los sistemas implementados cumplen los objetivos de rendimiento y latencia esperados.
- Optimización de configuraciones: identifique cuellos de botella en el proceso, la memoria, el almacenamiento y las redes.
- Análisis de la rentabilidad: compare las relaciones de rendimiento de precio y rendimiento entre las opciones de máquina virtual.
- Apoyar las decisiones de adquisición: proporcione datos de rendimiento repetibles y defendibles a las partes interesadas.
Métricas clave de rendimiento
Comprender las métricas principales que se usan para medir el rendimiento del sistema HPC es esencial para la evaluación y comparación significativas del sistema. Proporcionan medidas objetivas para la comparación, identifican cuellos de botella del sistema, lo que permite el ajuste del rendimiento y ayudan a predecir el rendimiento de la aplicación. Las métricas varían según el tipo de carga de trabajo, pero generalmente se dividen en cuatro categorías.
Las métricas de rendimiento de cálculo describen la capacidad de procesamiento bruta de un sistema y cómo se aplica eficazmente en la práctica. FLOPS (operaciones de punto flotante por segundo) se usan normalmente para cuantificar el rendimiento computacional y a menudo se notifican mediante pruebas comparativas como HPL (LINPACK). Aunque el rendimiento máximo representa la capacidad máxima teórica del hardware, el rendimiento sostenido refleja lo que las aplicaciones logran realmente en cargas de trabajo reales y, por lo tanto, es un indicador más significativo para la mayoría de las evaluaciones.
Familias de máquinas virtuales de Azure para HPC e IA
Azure proporciona familias de máquinas virtuales especializadas optimizadas para diferentes patrones de carga de trabajo.
HPC basado en CPU (serie HB)
Las máquinas virtuales de la serie HB están optimizadas para el ancho de banda de memoria y las redes de baja latencia, por lo que son adecuadas para cargas de trabajo de HPC tradicionales, como:
- Dinámica de fluidos computacionales (CFD)
- Modelado meteorológico y climático
- Análisis de elementos finitos
Entre las características clave se incluyen las siguientes:
- Procesadores AMD EPYC de recuento de núcleos altos
- Ancho de banda de memoria grande (incluido HBM en generaciones más recientes)
- Redes infiniBand de alta velocidad
IA basada en GPU (serie ND)
Las máquinas virtuales de la serie ND están diseñadas para cargas de trabajo aceleradas por GPU, entre las que se incluyen:
- Aprendizaje profundo
- Inferencia del modelo de lenguaje grande (LLM)
- Investigación y experimentación de inteligencia artificial
Estas máquinas virtuales incluyen:
- GPU del centro de datos NVIDIA (H100, H200, Blackwell)
- Gran capacidad de memoria de GPU
- Interconexiones de GPU a GPU y GPU a red de gran ancho de banda
Categorías de pruebas comparativas
Los diferentes puntos de referencia responden a diferentes preguntas. Seleccione pruebas comparativas en función del aspecto del rendimiento que quiera evaluar.
Pruebas comparativas sintéticas
Las pruebas comparativas sintéticas aíslan componentes específicos del sistema y son útiles para la validación de línea base:
- STREAM: mide el ancho de banda de memoria sostenible
- HPL (LINPACK): mide el rendimiento computacional pico de la computación de punto flotante.
- HPCG: evalúa el rendimiento del álgebra lineal dispersa, más cerca de las cargas de trabajo de HPC del mundo real.
- OSU Micro-Benchmarks: valida la latencia y el ancho de banda de MPI
- Pruebas NCCL: mide el rendimiento de la comunicación colectiva de GPU
Pruebas comparativas de aplicaciones
Las pruebas comparativas de aplicaciones reflejan el comportamiento real y a menudo son más representativas:
- ANSYS Fluent: rendimiento del solucionador DE CFD
- WRF: modelado meteorológico y atmosférico
- GROMACS/NAMD: rendimiento de la dinámica molecular
- MLPerf Training – rendimiento completo del entrenamiento de inteligencia artificial
- Inferencia de MLPerf: modelo que atiende el rendimiento y la latencia
Cómo empezar
Siga esta ruta de acceso recomendada para empezar a realizar pruebas comparativas en Azure:
1. Set up infrastructure
└── Setting Up Your First HPC Cluster (CycleCloud + Slurm)
2. Run baseline benchmarks
├── Running Your First Benchmark: STREAM (CPU/memory)
└── Running NCCL Benchmarks (GPU communication)
3. Compare VM options
├── CPU HPC VMs Comparison
└── GPU AI VMs Comparison
4. Optimize for your workload
└── Optimizing NCCL for Azure (AI training)
procedimientos recomendados
A continuación se muestran algunas directrices para pruebas comparativas confiables y reproducibles:
Antes de realizar pruebas comparativas
- Uso de imágenes optimizadas para HPC/AI: comience con imágenes de Azure HPC (AlmaLinux-HPC, Ubuntu-HPC) que incluyan controladores y bibliotecas preconfigurados.
- Comprobar las versiones del controlador: asegúrese de que los controladores de GPU, los controladores InfiniBand y las versiones NCCL son actuales.
- Comprobación de la topología: Confirmar la configuración de NUMA y la afinidad GPU-NIC
Durante la prueba comparativa
- Ejecuciones de preparación: descarte las ejecuciones iniciales para permitir que las memorias caché se estabilicen
- Varias iteraciones: ejecute al menos 5 iteraciones y presente la mediana o el promedio.
- Condiciones coherentes: mantener el sistema operativo, los controladores y las configuraciones idénticos entre comparaciones
- Documente todo: registrar versiones de software, variables de entorno y parámetros de línea de comandos
Problemas comunes que se deben evitar
- Períodos de preparación insuficientes
- Comparación de diferentes versiones de software
- Omitir la topología NUMA
- Uso de configuraciones predeterminadas sin optimización
- Tamaños de muestra inadecuados