Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Data Lakehouse es un sistema de administración de datos que combina las ventajas de los lagos de datos y los almacenes de datos. En este artículo se describe el patrón arquitectónico lakehouse y cómo se puede utilizar en Azure Databricks.
¿Para qué se utiliza un data lakehouse?
Un almacén de lago de datos proporciona funcionalidades de almacenamiento y procesamiento escalables para las organizaciones modernas que quieren evitar un sistema aislado para procesar diferentes cargas de trabajo, como el aprendizaje automático (ML) y la inteligencia empresarial (BI). Un almacén de lago de datos puede ayudar a establecer una única fuente de verdad, eliminar los costes redundantes y garantizar la actualización de los datos.
Los almacenes de lagos de datos suelen usar un patrón de diseño de datos que mejora, enriquece y refina los datos de forma incremental a medida que se mueve a través de capas de almacenamiento provisional y transformación. Cada capa del almacén de lago de datos puede incluir una o varias capas. Este patrón se conoce con frecuencia como arquitectura de medallón. Para obtener más información, consulte ¿Qué es la arquitectura medallion del almacén de lago?
¿Cómo funciona Databricks Lakehouse?
Databricks se basa en Apache Spark. Apache Spark permite un motor escalable de forma masiva que se ejecuta en recursos de proceso desacoplados del almacenamiento. Para más información, consulte Introducción a Apache Spark.
Databricks Lakehouse usa dos tecnologías clave adicionales:
- Delta Lake: una capa de almacenamiento optimizada que admite transacciones ACID y aplicación de esquemas.
- Catálogo de Unity: una solución de gobernanza unificada y específica para los datos y la inteligencia artificial.
Ingesta de datos
En la capa de ingesta, los datos por lotes o de streaming llegan desde una variedad de orígenes y en una variedad de formatos. Esta primera capa lógica proporciona un lugar para que los datos se coloquen en su formato sin procesar. A medida que convierte esos archivos en tablas Delta, puede usar las funcionalidades de cumplimiento de esquemas de Delta Lake para comprobar si faltan datos o datos inesperados. Puede usar el catálogo de Unity para registrar tablas según el modelo de gobernanza de datos y los límites de aislamiento de datos necesarios. Unity Catalog permite realizar un seguimiento del linaje de los datos a medida que se transforma y refina, así como aplicar un modelo de gobernanza unificado para mantener los datos confidenciales privados y seguros.
Procesamiento, curación e integración de datos
Una vez comprobado, puede empezar a seleccionar y refinar los datos. Los científicos de datos y los profesionales del aprendizaje automático suelen trabajar con datos en esta fase para empezar a combinar o crear nuevas características y completar la limpieza de datos. Una vez que los datos se han limpiado exhaustivamente, se pueden integrar y reorganizar en tablas diseñadas para satisfacer sus necesidades empresariales concretas.
Un enfoque de esquema en escritura, combinado con las funcionalidades de evolución del esquema Delta, significa que puede realizar cambios en esta capa sin tener que volver a escribir necesariamente la lógica de bajada que sirve datos a los usuarios finales.
Servicio de datos
La capa final sirve datos limpios y enriquecidos a los usuarios finales. Las tablas finales deben diseñarse para proporcionar datos para todos los casos de uso. Un modelo de gobernanza unificado significa que puede realizar un seguimiento del linaje de datos de nuevo a su único origen de verdad. Los diseños de datos, optimizados para diferentes tareas, permiten a los usuarios finales acceder a datos para aplicaciones de aprendizaje automático, ingeniería de datos e inteligencia empresarial e informes.
Para más información sobre Delta Lake, consulte ¿Qué es Delta Lake en Azure Databricks? Para obtener más información sobre el catálogo de Unity, consulte ¿Qué es el catálogo de Unity?
Funcionalidades de una instancia de Databricks Lakehouse
Una instancia de Lakehouse basada en Databricks reemplaza la dependencia actual de lagos de datos y almacenes de datos para empresas de datos modernas. Algunas tareas clave que puede realizar incluyen:
- Procesamiento de datos en tiempo real: Procese los datos de streaming en tiempo real para el análisis y la acción inmediatos.
- Integración de datos: Unifique los datos en un único sistema para permitir la colaboración y establecer una única fuente de verdad para su organización.
- Evolución del esquema: Modifique el esquema de datos a lo largo del tiempo para adaptarse a las necesidades empresariales cambiantes sin interrumpir las canalizaciones de datos existentes.
- Transformaciones de datos: El uso de Apache Spark y Delta Lake aporta velocidad, escalabilidad y confiabilidad a los datos.
- Análisis e informes de datos: Ejecute consultas analíticas complejas con un motor optimizado para cargas de trabajo de almacenamiento de datos.
- Aprendizaje automático e inteligencia artificial: Aplique técnicas de análisis avanzadas a todos los datos. Use ML para enriquecer los datos y admitir otras cargas de trabajo.
- Control de versiones de datos y linaje: Mantenga el historial de versiones de los conjuntos de datos y realice un seguimiento del linaje para garantizar la procedencia y la rastreabilidad de los datos.
- Gobernanza de datos: Use un único sistema unificado para controlar el acceso a los datos y realizar auditorías.
- Uso compartido de datos: Facilitar la colaboración al permitir el uso compartido de conjuntos de datos mantenidos, informes e información en todos los equipos.
- Análisis operativos: Supervise las métricas de calidad de los datos, las métricas de calidad del modelo y el desfase mediante la supervisión de la calidad de los datos.
Lakehouse frente a Data Lake frente a Data Warehouse
Los almacenes de datos han impulsado las decisiones de inteligencia empresarial (BI) durante unos 30 años, habiendo evolucionado como un conjunto de directrices de diseño para sistemas que controlan el flujo de datos. Los almacenamientos de datos empresariales optimizan las consultas para los informes de BI, pero pueden tardar minutos o incluso horas en generar resultados. Diseñado para los datos que no es probable que cambien con alta frecuencia, los almacenes de datos buscan evitar conflictos entre consultas que se ejecutan simultáneamente. Muchos almacenes de datos se basan en formatos propietarios, que a menudo limitan la compatibilidad con el aprendizaje automático. El almacenamiento de datos en Azure Databricks saca provecho de las funcionalidades de un almacén de lago de datos de Databricks y Databricks SQL. Para más información, consulte Almacenamiento de datos en Azure Databricks.
Impulsado por avances tecnológicos en el almacenamiento de datos y impulsados por aumentos exponenciales en los tipos y el volumen de datos, los lagos de datos han llegado a un uso generalizado en la última década. Los lagos de datos almacenan y procesan los datos de forma económica y eficaz. Los lagos de datos suelen definirse en oposición a los almacenes de datos: un almacenamiento de datos ofrece datos limpios y estructurados para el análisis de BI, mientras que un lago de datos almacena de forma permanente y barata los datos de cualquier naturaleza en cualquier formato. Muchas organizaciones usan lagos de datos para la ciencia de datos y el aprendizaje automático, pero no para los informes de BI debido a su naturaleza no validada.
Data Lakehouse combina las ventajas de los lagos de datos y los almacenes de datos y proporciona:
- Acceso abierto y directo a los datos almacenados en formatos estándar de datos.
- Indexación de protocolos optimizados para el aprendizaje automático y la ciencia de datos.
- Baja latencia de consulta y alta confiabilidad para BI y análisis avanzados.
Al combinar una capa de metadatos optimizada con datos validados almacenados en formatos estándar en el almacenamiento de objetos en la nube, Data Lakehouse permite trabajar desde los mismos datos y en la misma plataforma en distintos casos de uso.
Paso siguiente
Para obtener más información sobre los principios y procedimientos recomendados para implementar y operar una instancia de Lakehouse mediante Databricks, consulte Introducción del almacén de lago de datos bien diseñados