Diseñar una solución de integración de datos con Azure Data Lake

Completado

Un lago de datos es un repositorio de datos que se almacenan en su formato natural, normalmente como blobs o archivos. Azure Data Lake Storage es una solución de lago de datos completa, escalable y rentable para el análisis de macrodatos integrada en Azure. Azure Data Lake Storage combina un sistema de archivos con una plataforma de almacenamiento para ayudar a identificar rápidamente conclusiones en los datos. La solución se basa en funcionalidades de Azure Blob Storage para proporcionar optimizaciones para cargas de trabajo de análisis. Esta integración habilita las funcionalidades de rendimiento de análisis, alta disponibilidad, seguridad y durabilidad de Azure Storage.

Nota:

La implementación actual del servicio es Azure Data Lake Storage Gen2.

Aspectos que debe saber sobre Azure Data Lake Storage

Para comprender mejor Azure Data Lake Storage, vamos a examinar sus características siguientes.

  • Azure Data Lake Storage puede almacenar cualquier tipo de datos usando el formato nativo de estos datos. Gracias a la compatibilidad con cualquier formato de datos y tamaños de datos masivos, Azure Data Lake Storage puede trabajar con datos estructurados, semiestructurados y no estructurados.
  • La solución está diseñada principalmente para trabajar con Hadoop y todos los marcos que usan Sistema de archivos distribuido (HDFS) de Apache Hadoop como capa de acceso a los datos. Los marcos de análisis de datos que usan HDFS como capa de acceso a datos pueden acceder directamente.
  • Azure Data Lake Storage admite alto rendimiento para el movimiento de datos y los análisis que precisan de muchas entradas y salidas.
  • El modelo de control de acceso de Azure Data Lake Storage admite el control de acceso basado en roles de Azure y las listas de control de acceso (ACL) de Portable Operating System Interface for Unix (POSIX).
  • Azure Data Lake Storage utiliza modelos de replicación de blobs de Azure. Estos modelos proporcionan redundancia de datos en un único centro de datos con almacenamiento con redundancia local (LRS).
  • Azure Data Lake Storage ofrece almacenamiento masivo y acepta numerosos tipos de datos para el análisis.
  • El precio de Azure Data Lake Storage se establece en los niveles de Azure Blob Storage.

Funcionamiento de Azure Data Lake Storage

Hay tres pasos importantes para usar Azure Data Lake Storage:

  1. Ingesta de datos. Azure Data Lake Storage ofrece muchos métodos distintos de ingesta de datos:

    • Para los datos no planeados, puede usar herramientas como AzCopy, la CLI de Azure, PowerShell y Explorador de Azure Storage.
    • En el caso de los datos relacionales, se puede usar el servicio Azure Data Factory. Puede transferir datos desde cualquier origen, como Azure Cosmos DB, SQL Database, instancias administradas de Azure SQL, etc.
    • Para los datos de streaming, puede usar herramientas como Apache Storm en Azure HDInsight, Azure Stream Analytics, etc.

    En el diagrama siguiente se muestra cómo los datos no planeados y los datos de streaming se ingieren de forma masiva o no planeada en Azure Data Lake Storage.

    Diagram that shows how unplanned data and streaming data are either bulk ingested or unplanned ingested in Azure Data Lake Storage.

  2. Acceso a los datos almacenados. La manera más fácil de acceder a los datos es usar Explorador de Azure Storage. Explorador de Storage es una aplicación independiente con una interfaz gráfica de usuario (GUI) para acceder a los datos de Azure Data Lake Storage. También puede usar PowerShell, la CLI de Azure, la CLI de HDFS u otros SDK de lenguaje de programación para acceder a los datos.

  3. Configuración del control de acceso. Controle quién puede acceder a los datos almacenados en Azure Data Lake Storage mediante la implementación de un mecanismo de autorización. Puede elegir Azure RBAC o ACL.

Escenario empresarial

Tailwind Traders cuenta con diversos orígenes de datos, como sitios web, sistemas de punto de venta (POS), redes sociales y dispositivos IoT (Internet de las cosas). A la empresa le interesa usar Azure para analizar todos sus datos empresariales. Se le encarga proporcionar instrucciones sobre cómo Azure puede mejorar sus sistemas de BI existentes. Debe asesorar al equipo sobre cómo las funcionalidades de almacenamiento de Azure pueden agregar valor a la solución de BI de la empresa. Para cumplir los requisitos de datos, tiene previsto recomendar Azure Data Lake Storage. Data Lake Storage proporciona un repositorio donde se pueden cargar y almacenar grandes cantidades de datos no estructurados con vistas al análisis de macrodatos de alto rendimiento.

Vamos a revisar cómo Azure Data Lake Storage puede ser la opción adecuada para los requisitos de macrodatos de la organización.

Escenario Solución
Provisión de un almacenamiento de datos en la nube para administrar grandes volúmenes de datos. Azure Data Lake Storage se ejecuta en hardware virtual en la plataforma Azure. El almacenamiento es escalable, rápido y confiable sin incurrir en cargos masivos. Separa los costos de almacenamiento de los costos de proceso. A medida que crece el volumen de datos, solo cambian los requisitos de almacenamiento.
Admite una colección variada de tipos de datos, como archivos JSON, CSV, archivos de registro u otros formatos diversos. Azure Data Lake Storage habilita la democratización de datos para su organización mediante el almacenamiento de todos los formatos de datos (incluidos los datos sin procesar) en una sola ubicación. La eliminación de silos de datos permite a los usuarios usar herramientas como Azure Data Explorer para acceder a todos los elementos de datos de su cuenta de almacenamiento y trabajar con ellos.
Posibilidad de almacenamiento e ingesta de datos en tiempo real. Azure Data Lake Storage puede ingerir datos en tiempo real directamente desde una instancia de Apache Storm en Azure HDInsight, Azure IoT Hub, Azure Event Hubs o Azure Stream Analytics. También funciona con datos semiestructurados y permite ingerir todos los datos en tiempo real en la cuenta de almacenamiento.

Aspectos que se deben tener en cuenta al elegir Azure Blob Storage o Azure Data Lake

En la tabla siguiente se comparan los criterios de la solución de almacenamiento para usar Azure Blob Storage o Azure Data Lake. Revise los criterios y considere cuál es la solución óptima para Tailwind Traders.

Comparación Azure Data Lake Azure Blob Storage
Tipos de datos Conveniente para almacenar grandes volúmenes de datos de texto Adecuado para almacenar datos no estructurados no basados en texto, como fotos, vídeos y copias de seguridad
Redundancia geográfica Debe configurar manualmente la replicación de datos De forma predeterminada, proporciona almacenamiento con redundancia geográfica
Espacios de nombres Compatibilidad con espacios de nombres jerárquicos Compatibilidad con espacios de nombres planos
Compatibilidad con Hadoop Los servicios de Hadoop pueden usar datos almacenados en Azure Data Lake Con Azure Blob Filesystem Driver, las aplicaciones y los marcos pueden acceder a los datos en Azure Blob Storage
Seguridad Admite el acceso pormenorizado No admite el acceso pormenorizado