¿Qué es Delta Lake?
Delta Lake es una capa de almacenamiento de código abierto que ofrece transacciones ACID (atomicidad, coherencia, aislamiento y durabilidad) para cargas de trabajo de macrodatos de Apache Spark.
La versión de Delta Lake incluida con Azure Synapse actualmente ofrece compatibilidad con los lenguajes Scala, PySpark y .NET y con Linux Foundation Delta Lake. Hay vínculos en la parte inferior de la página para obtener ejemplos y documentación más detallados. Puede obtener más información en el vídeo de introducción a las tablas delta.
Característica | Descripción |
---|---|
Transacciones ACID | Los lagos de datos normalmente se rellenan mediante varios procesos y canalizaciones, algunos de los cuales escriben datos simultáneamente con las lecturas. Antes de Delta Lake y la adición de las transacciones, los ingenieros de datos tenían que realizar un proceso manual propenso a errores para garantizar la integridad de los datos. Delta Lake aporta las transacciones ACID conocidas a los lagos de datos. Ofrece serialización, que es el mayor nivel de aislamiento. Obtenga más información en Profundización en Delta Lake: desempaquetado del registro de transacciones |
Control escalable de metadatos | En términos de macrodatos, incluso los metadatos pueden ser "macrodatos". Delta Lake trata los metadatos de la misma forma que a los datos y aprovecha la capacidad de procesamiento distribuido de Spark para administrar todos sus metadatos. Como resultado, Delta Lake puede administrar tablas de escala de petabytes con miles de millones de archivos y particiones fácilmente. |
Viaje en el tiempo (control de versiones de datos) | La capacidad de "deshacer" un cambio o volver a una versión anterior es una de las características clave de las transacciones. Delta Lake proporciona instantáneas de los datos, lo que le permite revertir a versiones anteriores de datos para las auditorías, las reversiones o la reproducción de experimentos. Obtenga más información en Introducción al viaje en el tiempo de Delta Lake para los lagos de datos a gran escala. |
Formato abierto | Apache Parquet es el formato de referencia para Delta Lake, lo que le permite aprovechar los eficientes esquemas de compresión y codificación que son nativos para el formato. |
Lote unificado y origen y receptor de streaming | Una tabla en Delta Lake es una tabla de lotes, así como un origen y un receptor de streaming. La ingesta de datos de streaming, la reposición histórica de lotes y las consultas interactivas funcionan de manera integral. |
Aplicación de esquemas | La aplicación de esquemas ayuda a garantizar que los tipos de datos son correctos y que las columnas necesarias están presentes; de este modo, se evita que los datos incoherentes generen incoherencias en los datos. Para más información, consulte Profundización en Delta Lake: Aplicación y evolución del esquema. |
Evolución del esquema | Delta Lake le permite realizar cambios en un esquema de tabla que se puede aplicar automáticamente, sin tener que escribir DDL de migración. Para más información, consulte Profundización en Delta Lake: Aplicación y evolución del esquema. |
Historial de auditorías | Los registros de transacciones de Delta Lake registran los detalles de todos los cambio realizados en los datos, lo que proporciona un registro de auditoría completo de los cambios. |
Actualizaciones y eliminaciones | Delta Lake es compatible con las API de Scala/Java/Python y SQL para una gran variedad de funcionalidades. La compatibilidad con las operaciones MERGE, UPDATE y DELETE le ayuda a satisfacer los requisitos de cumplimiento. Para obtener más información, consulte Presentación de la versión 0.6.1 de Delta Lake, Presentación de la versión 0.7 de Delta Lake y Operaciones de upsert y eliminaciones simples y confiables en tablas de Delta Lake con las API de Python, que incluye fragmentos de código para los comandos DML MERGE, UPDATE y DELETE. |
100 % compatible con la API de Apache Spark | Los desarrolladores pueden usar Delta Lake con sus canalizaciones de datos actuales realizando cambios mínimos, ya que es totalmente compatible con las implementaciones de Spark existentes. |
Para ver la documentación completa, consulte la página de la documentación de Delta Lake.
Para obtener más información, consulte Proyecto Delta Lake.