Comparteix a través de


Introducción a Azure Data Lake Storage

Azure Data Lake Storage es un conjunto de funcionalidades dedicadas al análisis de macrodatos, basadas en Azure Blob Storage.

Azure Data Lake Storage converge las funcionalidades de Azure Data Lake Storage Gen1 con Azure Blob Storage. Por ejemplo, Data Lake Storage proporciona semántica del sistema de archivos, seguridad de nivel de archivo y escala. Debido a que estas funcionalidades se basan en Blob Storage, también disfrutará de un almacenamiento por niveles de bajo coste, con funcionalidades de alta disponibilidad y recuperación ante desastres.

Data Lake Storage hace de Azure Storage la base para crear lagos de datos empresariales en Azure. Diseñado desde el principio para atender varios petabytes de información mientras mantiene cientos de gigabits de rendimiento, Data Lake Storage le permite administrar fácilmente grandes cantidades de datos.

¿Qué es un lago de datos?

Un lago de datos es un repositorio único y centralizado donde puede almacenar todos los datos, tanto estructurados como no estructurados. Un lago de datos permite a su organización almacenar y analizar una amplia variedad de datos, y acceder a ellos, en una sola ubicación, de forma rápida y sencilla. Con un lago de datos, no es necesario adecuar los datos para que se ajusten a una estructura existente. En su lugar, puede almacenar los datos en su formato nativo o sin formato, normalmente como archivos o como objetos binarios grandes (blobs).

Azure Data Lake Storage es una solución de lago de datos empresarial basada en la nube. Está diseñado para almacenar grandes cantidades de datos en cualquier formato y facilitar las cargas de trabajo analíticas de macrodatos. Se usa para capturar datos de cualquier tipo y la velocidad de ingesta en una sola ubicación, a fin de facilitar el acceso y el análisis con varios marcos.

Data Lake Storage

Azure Data Lake Storage no es un servicio dedicado ni un tipo de cuenta. En su lugar, se implementa como un conjunto de funcionalidades que se usan con el servicio Blob Storage de la cuenta de Azure Storage. Es posible desbloquear estas funcionalidades habilitando la configuración del espacio de nombres jerárquico.

Data Lake Storage incluye las siguientes funcionalidades.

✓ Acceso compatible con Hadoop

✓ Estructura jerárquica de directorios

✓ Coste y rendimiento optimizados

✓ Modelo de seguridad más preciso

✓ Escalabilidad masiva

Acceso compatible con Hadoop

Azure Data Lake Storage está diseñado principalmente para trabajar con Hadoop y con todos los marcos que usan el Sistema de archivos distribuido de Hadoop (HDFS ) de Apache como capa de acceso a datos. Las distribuciones de Hadoop incluyen el controlador Azure Blob File System (ABFS), que permite que muchas aplicaciones y marcos accedan directamente a los datos de Azure Blob Storage. El controlador ABFS está optimizado específicamente para el análisis de macrodatos. Las API de REST correspondientes se exponen a través del punto de conexión dfs.core.windows.net.

Los marcos de análisis de datos que usan HDFS como capa de acceso a los datos pueden acceder directamente a Azure Data Lake Storage datos mediante ABFS. El motor de análisis Apache Spark y el motor de consulta SQL Presto son ejemplos de estos marcos.

Para obtener más información sobre los servicios y plataformas admitidos, consulte Servicios de Azure que admiten Azure Data Lake Storage y plataformas de código abierto compatibles con Azure Data Lake Storage.

Estructura jerárquica de directorios

El espacio de nombres jerárquico es una característica clave que permite a Azure Data Lake Storage proporcionar acceso a datos de alto rendimiento a escala y precio de almacenamiento de objetos. Puede usar esta característica para organizar todos los objetos y archivos de la cuenta de almacenamiento en una jerarquía de directorios y subdirectorios anidados. En otras palabras, los datos de Azure Data Lake Storage se organizan de la misma manera que los archivos que se organizan en el equipo.

Algunas operaciones, como el cambio de nombre o la eliminación de un directorio, pasan a ser opciones atómicas individuales de metadatos en el directorio. No es necesario enumerar y procesar todos los objetos que comparten el prefijo del nombre del directorio.

Coste y rendimiento optimizados

El precio de Azure Data Lake Storage se establece en los niveles de Azure Blob Storage. Se basa en capacidades de Azure Blob Storage, como la administración automatizada de directivas de ciclo de vida y los niveles de objeto para administrar los costes de almacenamiento de macrodatos.

El rendimiento se optimiza porque no es necesario copiar ni transformar datos como requisito previo para el análisis. La capacidad de espacio de nombres jerárquico de Azure Data Lake Storage permite un acceso y una navegación eficaces. Esta arquitectura significa que el procesamiento de datos requiere menos recursos de cálculo, lo que reduce la velocidad y el coste de acceso a los datos.

Modelo de seguridad más preciso

El modelo de control de acceso de Azure Data Lake Storage admite tanto el control de acceso basado en rol de Azure (Azure RBAC) como la interfaz de sistema operativo portátil para listas de control de acceso (ACL) de UNIX (POSIX). También hay algunas configuraciones de seguridad adicionales que son específicas de Azure Data Lake Storage. Puede establecer permisos en el nivel de directorio o en el nivel de archivo. Todos los datos almacenados se cifran en reposo usando claves de cifrado administradas por Microsoft o por el cliente.

Escalabilidad masiva

Azure Data Lake Storage ofrece almacenamiento masivo y acepta numerosos tipos de datos para el análisis. No se impone ningún límite al tamaño de cuenta, el tamaño de archivo o la cantidad de datos que se pueden almacenar en el lago de datos. Los archivos individuales pueden tener tamaños que van desde unos kilobytes (KB) a unos cuantos petabytes (PB). El procesamiento se ejecuta en las latencias por solicitud casi constantes que se miden en los niveles de servicio, cuenta y archivo.

Este diseño significa que Azure Data Lake Storage puede escalar verticalmente de forma sencilla y rápida para satisfacer las cargas de trabajo más exigentes. También puede reducir verticalmente fácilmente cuando la demanda disminuya.

Basado en Azure Blob Storage

Los datos que ingiera se conservarán como blobs en la cuenta de almacenamiento. El servicio que administra blobs es el servicio Azure Blob Storage. Data Lake Storage describe las funcionalidades o "mejoras" de este servicio que satisface las demandas de cargas de trabajo analíticas de macrodatos.

Dado que estas funcionalidades se basan en Blob Storage, las características como el registro de diagnóstico, los niveles de acceso y las directivas de administración del ciclo de vida están disponibles para su cuenta. La mayoría de las características de Blob Storage son totalmente compatibles, pero es posible que algunas características solo se admitan en el nivel de versión preliminar y que todavía no se admitan algunas de ellas. Para obtener una lista completa de las instrucciones de soporte técnico, consulte Compatibilidad de características de Blob Storage en cuentas de Azure Storage. El estado de cada característica enumerada cambiará con el tiempo a medida que el soporte continúe expandiéndose.

Documentación y terminología

La tabla de contenido de Azure Blob Storage presenta dos secciones de contenido. La sección de Data Lake Storage del contenido proporciona procedimientos recomendados e instrucciones para usar las funcionalidades de Data Lake Storage. La sección Blob Storage de contenido proporciona instrucciones para las características de cuenta no específicas de Data Lake Storage.

A medida que se mueva entre secciones, es posible que note algunas ligeras diferencias de terminología. Por ejemplo, el contenido destacado de la documentación de Blob Storage usará el término blob en lugar del archivo. Técnicamente, los archivos que ingiere en la cuenta de almacenamiento se convierten en blobs en su cuenta. Por lo tanto, el término es correcto. Sin embargo, el término blob puede causar confusión si está acostumbrado al término archivo. También verá el término contenedor, que se usa para hacer referencia a un sistema de archivos. Puede considerar estos términos como sinónimos.

Consulte también