Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Se o seu fluxo de trabalho incluir mover dados para armazenamento Azure Blob, certifique-se de que está a usar uma estratégia eficiente. Deves criar a cache, adicionar o contentor do blob como alvo de armazenamento e depois copiar os teus dados usando o Azure HPC Cache.
Este artigo explica as melhores formas de mover dados para armazenamento de blobs para utilização com o Azure HPC Cache.
Tip
Este artigo não se aplica ao armazenamento blob montado em NFS (destinos de armazenamento ADLS-NFS). Pode usar qualquer método baseado em NFS para preencher um contentor de ADLS-NFS blob antes ou depois de o adicionar à cache HPC. Leia os dados de pré-carregamento com o protocolo NFS para saber mais.
Tenha em mente estes factos:
O Azure HPC Cache utiliza um formato de armazenamento especializado para organizar dados em armazenamento de blobs. É por isso que um alvo de armazenamento de blob deve ser ou um contentor novo e vazio, ou um contentor de blob que foi anteriormente usado para dados da cache HPC do Azure.
Copiar dados através do Azure HPC Cache para um destino de armazenamento back-end é mais eficiente quando se usam múltiplos clientes e operações paralelas. Um simples comando de cópia de um cliente move os dados lentamente.
As estratégias descritas neste artigo funcionam para preencher um contentor de blob vazio ou para adicionar ficheiros a um alvo de armazenamento previamente utilizado.
Copiar dados através do Azure HPC Cache
O Azure HPC Cache foi concebido para servir múltiplos clientes simultaneamente, por isso, para copiar dados pela cache, deve usar escritas paralelas de múltiplos clientes.
Os comandos cp ou copy que normalmente utilizas para transferir dados de um sistema de armazenamento para outro são processos unifilares que copiam apenas um ficheiro de cada vez. Isto significa que o servidor de ficheiros está a ingerir apenas um ficheiro de cada vez – o que é um desperdício dos recursos da cache.
Esta secção explica estratégias para criar um sistema de cópia de ficheiros multi-cliente e multithread para mover dados para armazenamento de blobs com o Azure HPC Cache. Explica conceitos de transferência de ficheiros e pontos de decisão que podem ser usados para cópia eficiente de dados usando múltiplos clientes e comandos simples de cópia.
Também explica algumas utilidades que podem ajudar. A msrsync ferramenta pode ser usada para automatizar parcialmente o processo de dividir um conjunto de dados em baldes de dados e usar comandos rsync. O parallelcp script é outra utilidade que lê o diretório de origem e emite comandos de cópia automaticamente.
Planeamento estratégico
Ao construir uma estratégia para copiar dados em paralelo, deve compreender as compensações no tamanho dos ficheiros, número de ficheiros e profundidade de diretórios.
- Quando os ficheiros são pequenos, a métrica de interesse são os ficheiros por segundo.
- Quando os ficheiros são grandes (10MiBi ou mais), a métrica de interesse são bytes por segundo.
Cada processo de cópia tem uma taxa de throughput e uma taxa de transferência de ficheiros, que pode ser medida temporizando o comprimento do comando de cópia e fatorando o tamanho e o número de ficheiros. Explicar como medir as taxas está fora do âmbito deste documento, mas é fundamental perceber se irá lidar com ficheiros pequenos ou grandes.
Estratégias para ingestão paralela de dados com o Azure HPC Cache incluem:
Cópia manual - Pode criar manualmente uma cópia multithread num cliente executando mais do que um comando de cópia ao mesmo tempo em segundo plano sobre conjuntos predefinidos de ficheiros ou caminhos. Leia importação de dados do Azure HPC Cache - método manual de cópia para mais informações.
A cópia parcialmente automatizada com
msrsync-msrsyncé um utilitário de encapsulamento que executa múltiplos processos paralelosrsync. Para obter mais informações, leia sobre a ingestão de dados do Azure HPC Cache - método msrsync.Cópia scriptada com
parallelcp- Aprenda a criar e executar um script de cópia paralela no Azure HPC Cache data ingest - método de script de cópia paralela.
Passos seguintes
Depois de configurares o teu armazenamento, aprende como os clientes podem montar o cache.