Introducción a la migración de servicios base

2025-04-10

Uno de los componentes clave con los que interactúan los usuarios en un entorno local es el programador de trabajos (por ejemplo, Slurm, PBS y LSF). Durante un proceso de lift-and-shift, los usuarios deben conservar el mismo nivel de interacción con estos programadores. Sin embargo, la diferencia es que los recursos ya no son estáticos; se aprovisionan a petición.

Esta sección abarca los componentes principales relacionados con el programador de trabajos, incluido el orquestador de recursos para el aprovisionamiento y la configuración de recursos, la administración de identidades para la autenticación de usuarios, la supervisión (incluidas las comprobaciones del estado de los nodos) y la contabilidad para comprender mejor el estado y el uso de los recursos. Cada componente desempeña un papel fundamental para garantizar el rendimiento, la escalabilidad y la seguridad del entorno de HPC. Al usar tecnologías locales conocidas como Active Directory y entornos de ejecución de aplicaciones establecidos, las organizaciones pueden realizar la transición a la nube de forma más fluida al tiempo que mantienen la continuidad. Se proporciona una visión general completa de las herramientas, los procedimientos recomendados y las configuraciones de inicio rápido, con el objetivo de automatizar progresivamente estos servicios a medida que evoluciona el entorno en la nube.

Identidad del usuario

Usando tecnologías como los servicios de Active Directory y LDAP, las cuentas de usuario y las propiedades en uso en las instalaciones podrían reutilizarse en el entorno de la nube. Se recomienda aplicar las tecnologías de identidad de usuario locales existentes tanto como sea posible.

Supervisión

La supervisión es un área muy amplia, ya que no solo hay que supervisar los puestos de trabajo, sino toda la infraestructura. Nuestra principal recomendación en este servicio es que se tengan en cuenta no solo las métricas existentes en los entornos locales, sino también las nuevas que van a la nube, que están relacionadas con los costos y con el estado de la infraestructura. En la nube, los recursos se aprovisionan y desaprovisionan en función de la demanda de uso, lo que difiere de un entorno local. Por ejemplo, puede ser interesante crear alertas para umbrales relacionados con los costes, que podrían ser por usuario, departamento o proyecto.

Comprobaciones de estado de los nodos

En relación con la supervisión, las comprobaciones de estado de los nodos son relevantes para ver si los nodos del clúster aprovisionado superan todas las pruebas relacionadas con su estado. Se recomienda usar las comprobaciones de estado del nodo que ofrece Azure para las instancias de HPC. Pero es posible que quiera agregar nuevas pruebas si es necesario.

Reglas de escalado automático

El escalado automático es un diferenciador clave en comparación con el entorno local. Las reglas de escalado automático determinan cuándo se unen los nodos o dejan un clúster. Tener siempre todos los nodos esperados en puede aportar eficacia para iniciar trabajos como nodos. Sin embargo, cuando están inactivos, pueden convertirse en un desperdicio considerable de dinero. Nuestra recomendación es mantener los nodos desactivados cuando no están en uso. Si la empresa exige tiempos de arranque más rápidos, un búfer con algunos nodos activados puede ser interesante, pero esta opción debe definirse adecuadamente para evaluar las compensaciones entre el tiempo de arranque rápido de los trabajos y los costes.

Aplicaciones y entornos de ejecución

Aquí, se recomienda usar la tecnología local existente tanto como sea posible. Se pueden reutilizar tecnologías como spack, easybuild, EESSI o incluso un repositorio de aplicaciones compiladas. Sin embargo, hay que tener en cuenta que el hardware en la nube puede ser diferente al disponible en el entorno local. Por lo tanto, la recompilación y el ajuste de los scripts son necesarios y pueden aportar ventajas en cuanto al rendimiento.

Para obtener más información, consulte la descripción del componente siguiente:

Aquí se describe cada componente. Esta sección incluye lo siguiente:

Una descripción general de lo que es el componente
Cuáles son los requisitos del componente (es decir, lo que necesitamos del componente)
Herramientas y servicios disponibles
Procedimientos recomendados para el componente en el contexto de lift-and-shift de HPC
Ejemplo de una configuración de inicio rápido

El objetivo del inicio rápido es tener una idea de cómo empezar a usar el componente. A medida que madura la implementación en la nube de HPC, se espera que uno automatice el uso del componente mediante, por ejemplo, herramientas de infraestructura como software como Terraform o Bicep.