Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Si el flujo de trabajo incluye mover datos a Azure Blob Storage, asegúrese de que usa una estrategia eficaz. Debe crear la memoria caché, agregar el contenedor de blobs como destino de almacenamiento y, a continuación, copiar los datos mediante Azure HPC Cache.
En este artículo se explican las mejores maneras de mover datos a Blob Storage para su uso con Azure HPC Cache.
Sugerencia
Este artículo no se aplica al almacenamiento de blobs montado por NFS (destinos de almacenamiento ADLS-NFS). Puede usar cualquier método basado en NFS para rellenar un contenedor de blobs de ADLS-NFS antes o después de agregarlo a HPC Cache. Lea Carga previa de datos con el protocolo NFS para obtener más información.
Tenga en cuenta estos hechos:
Azure HPC Cache usa un formato de almacenamiento especializado para organizar los datos en Blob Storage. Este es el motivo por el que un destino de Blob Storage debe ser un contenedor nuevo, vacío o un contenedor de blobs que se usó anteriormente para los datos de Azure HPC Cache.
La copia de datos a través de Azure HPC Cache en un destino de almacenamiento back-end es más eficaz cuando se usan varios clientes y operaciones paralelas. Un comando de copia simple de un cliente moverá los datos lentamente.
Las estrategias descritas en este artículo funcionan para rellenar un contenedor de blobs vacío o para agregar archivos a un destino de almacenamiento usado anteriormente.
Copia de datos a través de Azure HPC Cache
Azure HPC Cache está diseñado para atender a varios clientes simultáneamente, por lo que para copiar datos a través de la memoria caché, debe usar escrituras paralelas de varios clientes.
Los cp comandos o copy que normalmente se usan para transferir datos de un sistema de almacenamiento a otro son procesos de un solo subproceso que copian solo un archivo a la vez. Esto significa que el servidor de archivos solo ingiere un archivo a la vez, que es un desperdicio de los recursos de la memoria caché.
En esta sección se explican las estrategias para crear un sistema de copia de archivos multi-cliente y multiproceso para mover datos a Blob Storage con Azure HPC Cache. Se explican los conceptos de transferencia de archivos y los puntos de decisión que se pueden usar para la copia eficaz de datos mediante varios clientes y comandos de copia simples.
También se explican algunas utilidades que pueden ayudar. La msrsync utilidad se puede usar para automatizar parcialmente el proceso de dividir un conjunto de datos en cubos y usar comandos rsync. El parallelcp script es otra utilidad que lee el directorio de origen y emite comandos de copia automáticamente.
Planificación estratégica
Al crear una estrategia para copiar datos en paralelo, debe comprender los inconvenientes en el tamaño de archivo, el recuento de archivos y la profundidad del directorio.
- Cuando los archivos son pequeños, la métrica de interés es archivos por segundo.
- Cuando los archivos son grandes (10MiBi o superior), la métrica de interés es bytes por segundo.
Cada proceso de copia tiene una velocidad de rendimiento y una tasa de transferencia de archivos, que se pueden medir cronometrando la ejecución del comando de copia y considerando el tamaño y la cantidad de archivos. Explicar cómo medir las tarifas está fuera del ámbito de este documento, pero es imperativo comprender si va a tratar con archivos pequeños o grandes.
Entre las estrategias para la ingesta de datos en paralelo con Azure HPC Cache se incluyen:
Copia manual: puede crear manualmente una copia multiproceso en un cliente, ejecutando más de un comando de copia simultáneamente en segundo plano en conjuntos predefinidos de archivos o rutas de acceso. Lea Ingesta de datos de Azure HPC Cache: método de copia manual para más información.
La copia parcialmente automatizada con
msrsync-msrsynces una herramienta de envoltura que ejecuta múltiples procesos paralelosrsync. Para más información, lea Ingesta de datos de Azure HPC Cache: método msrsync.Copia con scripts con
parallelcp- Aprenda a crear y ejecutar un script de copia en paralelo en la ingesta de datos de Azure HPC Cache: método de script de copia en paralelo.
Pasos siguientes
Después de configurar el almacenamiento, obtenga información sobre cómo los clientes pueden montar la memoria caché.