Espacio de nombres jerárquico de Azure Data Lake Storage

La adición de un espacio de nombres jerárquico es un mecanismo clave que permite a Azure Data Lake Storage proporcionar rendimiento para el sistema de archivos a precios y escala de almacenamiento de objetos. Esta característica organiza la colección de objetos y archivos dentro de una cuenta en una jerarquía de directorios y subdirectorios anidados, de forma similar al sistema de archivos del equipo. Al habilitar un espacio de nombres jerárquico, una cuenta de almacenamiento puede ofrecer la escalabilidad y la rentabilidad del almacenamiento de objetos, junto con la semántica del sistema de archivos que los motores y marcos de análisis encuentran familiares.

Ventajas de un espacio de nombres jerárquico

Los sistemas de archivos que implementan un espacio de nombres jerárquico sobre los datos de blobs ofrecen las siguientes ventajas:

  • Manipulación atómica de directorios: los almacenamientos de objetos se aproximan a una jerarquía de directorios mediante la adopción de una convención de inserción de barras diagonales (/) en el nombre del objeto para indicar los segmentos de ruta. Aunque esta convención funciona para organizar objetos, no proporciona asistencia para acciones como mover, cambiar el nombre o eliminar directorios. Sin directorios reales, las aplicaciones podrían tener que procesar millones de blobs individuales para lograr realizar las tareas de nivel de directorio. Por el contrario, un espacio de nombres jerárquico procesa estas tareas mediante la actualización de una sola entrada (el directorio principal).

    Esta optimización es especialmente importante para muchos marcos de análisis de macrodatos. Herramientas como Hive y Spark suelen escribir los resultados en ubicaciones temporales y, a continuación, renombrar la ubicación al finalizar el trabajo. Sin un espacio de nombres jerárquico, esta operación de cambio de nombre suele tardar más tiempo que el propio proceso de análisis. La disminución de la latencia de trabajo equivale a la reducción del costo total de propiedad (TCO) de las cargas de trabajo de análisis.

  • Estilo de interfaz familiar: Tanto los desarrolladores como los usuarios entienden los sistemas de archivos. Cuando se mueve a la nube, no es necesario aprender un nuevo paradigma de almacenamiento porque Data Lake Storage expone la misma interfaz de sistema de archivos que usan los equipos, grandes y pequeños.

Una de las razones por las que los almacenes de objetos históricamente no admitieron un espacio de nombres jerárquico es que un espacio de nombres jerárquico limita la escala. Sin embargo, el espacio de nombres jerárquico de Data Lake Storage se escala de forma lineal y no degrada ni la capacidad de los datos ni el rendimiento.

Decidir si se habilita un espacio de nombres jerárquico

Después de habilitar un espacio de nombres jerárquico en la cuenta, no se puede revertir a un espacio de nombres plano. Por lo tanto, tenga en cuenta si tiene sentido habilitar un espacio de nombres jerárquico en función de la naturaleza de las cargas de trabajo del almacén de objetos. Para evaluar el impacto de habilitar un espacio de nombres jerárquico en cargas de trabajo, aplicaciones, costos, integraciones de servicios, herramientas, características y documentación, consulte Actualización de Azure Blob Storage con funcionalidades de Azure Data Lake Storage.

Puede que algunas cargas de trabajo no obtengan ninguna ventaja al habilitar un espacio de nombres jerárquico. Algunos ejemplos incluyen las copias de seguridad, el almacenamiento de imágenes y otras aplicaciones donde la organización de objetos y los propios objetos se almacenan por separado (por ejemplo, en una base de datos independiente).

Además, aunque la compatibilidad con las características de Blob Storage y el ecosistema de servicios de Azure continúa creciendo, algunas características y servicios de Azure aún no se admiten en cuentas que tienen un espacio de nombres jerárquico. Consulte Problemas conocidos.

En general, active un espacio de nombres jerárquico para cargas de trabajo de almacenamiento diseñadas para sistemas de archivos que manipulan directorios. Esta recomendación incluye todas las cargas de trabajo que se usan principalmente para el procesamiento de análisis. Los conjuntos de datos que requieren un alto grado de organización también se benefician de habilitar un espacio de nombres jerárquico.

Las razones para habilitar un espacio de nombres jerárquico las determina un análisis de TCO. Por lo general, las mejoras en la latencia de la carga de trabajo debido a la aceleración del almacenamiento requieren recursos de proceso durante menos tiempo. La latencia de muchas cargas de trabajo podría mejorar debido a la manipulación atómica de directorios que habilita un espacio de nombres jerárquico. En muchas cargas de trabajo, el recurso de proceso representa más de 85% del costo total, por lo que incluso una reducción moderada de la latencia de la carga de trabajo equivale a una cantidad significativa de ahorro de TCO. Incluso en los casos en los que al habilitar un espacio de nombres jerárquico aumentan los costos de almacenamiento, el TCO aún disminuye debido a los costos de proceso reducidos.

Para analizar las diferencias en los precios de almacenamiento de datos, los precios de transacción y los precios de reserva de capacidad de almacenamiento entre cuentas que tienen un espacio de nombres jerárquico plano frente a un espacio de nombres jerárquico, consulte Precios de Azure Data Lake Storage.

Pasos siguientes