Azure Data Lake Storage Gen2 espaço de nomes hierárquico

Um mecanismo-chave que permite aos Azure Data Lake Storage Gen2 fornecer desempenho do sistema de ficheiros à escala de armazenamento de objetos e preços é a adição de um espaço de nomes hierárquico. Isto permite que a coleção de objetos/ficheiros numa conta seja organizada numa hierarquia de diretórios e subdiretórios aninhados da mesma forma que o sistema de ficheiros no seu computador está organizado. Com um espaço de nomes hierárquico ativado, uma conta de armazenamento torna-se capaz de proporcionar a escalabilidade e a relação custo-eficácia do armazenamento de objetos, com semântica do sistema de ficheiros familiar para motores e arquiteturas de análise.

Os benefícios de um espaço de nomes hierárquico

Os seguintes benefícios estão associados a sistemas de ficheiros que implementam um espaço de nomes hierárquico através de dados de blobs:

  • Manipulação de diretórios atómicos: O objeto armazena uma hierarquia de diretório aproximada ao adotar uma convenção de incorporação de barras (/) no nome do objeto para denotar segmentos de caminho. Embora esta convenção funcione para organizar objetos, a convenção não fornece assistência para ações como mover, mudar o nome ou eliminar diretórios. Sem diretórios reais, as aplicações têm de processar potencialmente milhões de blobs individuais para alcançar tarefas ao nível do diretório. Por outro lado, um espaço de nomes hierárquico processa estas tarefas ao atualizar uma única entrada (o diretório principal).

    Esta otimização dramática é especialmente significativa para muitas arquiteturas de análise de macrodados. Ferramentas como o Hive, Spark, etc. muitas vezes, escreva a saída em localizações temporárias e, em seguida, mude o nome da localização no final da tarefa. Sem um espaço de nomes hierárquico, este nome pode, muitas vezes, demorar mais tempo do que o próprio processo de análise. Uma latência de trabalho mais baixa equivale a um menor custo total de propriedade (TCO) para cargas de trabalho de análise.

  • Estilo de Interface Familiar: Os sistemas de ficheiros são bem compreendidos por programadores e utilizadores. Não é necessário aprender um novo paradigma de armazenamento quando se muda para a cloud, uma vez que a interface do sistema de ficheiros exposta por Data Lake Storage Gen2 é o mesmo paradigma utilizado pelos computadores, grande e pequeno.

Uma das razões pelas quais os arquivos de objetos não suportam historicamente um espaço de nomes hierárquico é o facto de um espaço de nomes hierárquico limitar a escala. No entanto, o Data Lake Storage Gen2 espaço de nomes hierárquico dimensiona linearmente e não degrada a capacidade ou o desempenho dos dados.

Decidir se pretende ativar um espaço de nomes hierárquico

Depois de ativar um espaço de nomes hierárquico na sua conta, não pode revertê-lo novamente para um espaço de nomes simples. Por conseguinte, considere se faz sentido ativar um espaço de nomes hierárquico com base na natureza das cargas de trabalho do arquivo de objetos. Para avaliar o impacto da ativação de um espaço de nomes hierárquico em cargas de trabalho, aplicações, custos, integrações de serviços, ferramentas, funcionalidades e documentação, veja Atualizar Armazenamento de Blobs do Azure com capacidades de Azure Data Lake Storage Gen2.

Algumas cargas de trabalho podem não obter qualquer benefício ao ativar um espaço de nomes hierárquico. Os exemplos incluem cópias de segurança, armazenamento de imagens e outras aplicações onde a organização de objetos é armazenada separadamente dos próprios objetos (por exemplo, numa base de dados separada).

Além disso, embora o suporte para funcionalidades de armazenamento de Blobs e o ecossistema de serviços do Azure continue a crescer, ainda existem algumas funcionalidades e serviços do Azure que ainda não são suportados em contas que têm um espaço de nomes hierárquico. Veja Problemas Conhecidos.

Em geral, recomendamos que ative um espaço de nomes hierárquico para cargas de trabalho de armazenamento concebidas para sistemas de ficheiros que manipulam diretórios. Isto inclui todas as cargas de trabalho que se destinam principalmente ao processamento de análise. Os conjuntos de dados que requerem um elevado grau de organização também beneficiarão ao ativar um espaço de nomes hierárquico.

Os motivos para ativar um espaço de nomes hierárquico são determinados por uma análise de TCO. De um modo geral, as melhorias na latência da carga de trabalho devido à aceleração do armazenamento exigirão recursos de computação por menos tempo. A latência para muitas cargas de trabalho pode ser melhorada devido à manipulação de diretórios atómicos que é ativada por um espaço de nomes hierárquico. Em muitas cargas de trabalho, o recurso de computação representa > 85% do custo total, pelo que mesmo uma redução modesta da latência da carga de trabalho equivale a uma quantidade significativa de poupanças de TCO. Mesmo nos casos em que a ativação de um espaço de nomes hierárquico aumenta os custos de armazenamento, o TCO continua a ser reduzido devido à redução dos custos de computação.

Para analisar as diferenças nos preços de armazenamento de dados, nos preços das transações e nos preços das reservas de capacidade de armazenamento entre contas que têm um espaço de nomes hierárquico simples em comparação com um espaço de nomes hierárquico, veja preços Azure Data Lake Storage Gen2.

Passos seguintes