Personalización de la escritura diferida de archivos en Azure HPC Cache

Los usuarios de HPC Cache pueden solicitar que la memoria caché escriba archivos individuales específicos en el almacenamiento back-end a petición mediante la utilidad flush_file.py. Esta utilidad es un paquete de software descargado por separado que se instala y usa en máquinas cliente Linux.

Esta característica está diseñada para situaciones en las que desea que los cambios en los archivos almacenados en caché estén disponibles lo antes posible para los sistemas que no montan la memoria caché.

Por ejemplo, puede usar Azure HPC Cache para escalar los trabajos informáticos en la nube, pero almacenar el conjunto de datos de forma permanente en un centro de datos local. Si las tareas de proceso se producen en el centro de datos que dependen de los cambios creados con Azure HPC Cache, puede usar esta utilidad para "insertar" la salida o los cambios generados por una tarea en la nube de nuevo en el almacenamiento NAS local. Esto permite que los recursos de proceso locales usen casi inmediatamente los nuevos archivos.

Elegir entre escritura diferida personalizada y vaciado

Puede forzar la reescritura de datos con la opción "vaciado de destino de almacenamiento" integrada en Azure HPC Cache, pero es posible que este enfoque no sea adecuado para todas las situaciones.

La escritura de todos los archivos modificados en el sistema de almacenamiento puede tardar varios minutos o incluso horas, en función de la cantidad de datos y la velocidad del vínculo de red al sistema local. Además, no puede elegir solo los archivos con los que ha terminado de escribirse; los archivos que todavía se están modificando se incluirán en este cálculo.
La memoria caché podría bloquear el servicio de algunas solicitudes de ese destino de almacenamiento durante el proceso de vaciado. Esto puede retrasar el procesamiento si hay otros clientes de proceso que usan archivos que residen en el mismo destino de almacenamiento.
La activación de esta acción requiere acceso de colaborador a Azure Resource Manager, que es posible que los usuarios finales no tengan.

Por ejemplo, puede tener varios trabajos de proceso paralelos (pero no superpuestos) que consumen datos que residen en el mismo destino de almacenamiento de HPC Cache. Cuando se complete un trabajo, querrá escribir inmediatamente la salida de ese trabajo desde la memoria caché en el almacenamiento permanente en el sistema de servidores.

Tiene tres opciones:

Espere a que los archivos almacenados en caché se vuelvan a escribir automáticamente desde la memoria caché, pero es posible que los archivos se siten en la memoria caché durante más de una hora antes de que se vuelvan a escribir por completo. El tiempo depende del retraso de reescritura del modelo de uso de caché, junto con otros factores, como el rendimiento del vínculo de red y el tamaño de los archivos. (Lea Descripción de los modelos de uso de caché para obtener más información sobre el retraso de reescritura).
Vaciar inmediatamente los archivos almacenados en caché para todo el destino de almacenamiento, pero eso interrumpiría otros trabajos de proceso que también usan los datos de este destino de almacenamiento.
Use esta utilidad de reescritura personalizada para enviar una solicitud NFS especial a la memoria caché para volver a escribir solo los archivos específicos que desee. Este escenario no interrumpe el acceso a otros clientes y se puede desencadenar en cualquier momento de la tarea informática.

Acerca de la utilidad de reescritura

La utilidad de reescritura tiene un script que puede usar para especificar archivos individuales que se escribirán desde la memoria caché en el sistema de almacenamiento a largo plazo.

El script toma una secuencia de datos de entrada de los archivos que se van a escribir, junto con la ruta de acceso al espacio de nombres de la caché para la exportación del destino de almacenamiento y una dirección IP de montaje de HPC Cache.

El script usa una llamada "commit" de NFSv3 con argumentos especiales habilitados. El cliente nfs-common de Linux no puede pasar estos argumentos adecuadamente, por lo que la utilidad flush_file.py usa un emulador de cliente NFS en una biblioteca de Python para comunicarse con el servicio NFS de HPC Cache. La biblioteca incluye todo lo necesario, lo que evita las limitaciones que podrían existir en el cliente NFS basado en el kernel de Linux de su cliente de computación.

Para usar esta característica, debe hacer lo siguiente:

Instale la hpc-cache-nfsv3-client biblioteca desde el repositorio de Microsoft HPC-Cache-NFSv3-client de GitHub en https://github.com/microsoft/hpc-cache-nfsv3-client. en uno o varios clientes de computación. La información de requisitos previos y las instrucciones se incluyen en el archivo LÉAME del repositorio.
Use el script "flush_file.py" incluido para indicar a la memoria caché que escriba los archivos exactos que necesita de vuelta al sistema de almacenamiento a largo plazo.

Obtenga más información sobre cómo instalar y usar el script de flush_file.py en el repositorio de GitHub.

Last updated on 2022-07-07

Personalización de la escritura diferida de archivos en Azure HPC Cache

Elegir entre escritura diferida personalizada y vaciado

Acerca de la utilidad de reescritura

Recursos adicionales