Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este artículo es una introducción a las tecnologías con la marca colectiva Delta en Azure Databricks. Delta hace referencia a las tecnologías relacionadas con o en el proyecto de código abierto Delta Lake.
Este artículo responde:
- ¿Qué son las tecnologías delta en Azure Databricks?
- ¿Qué hacen? ¿O para qué se usan?
- ¿Cómo se relacionan y se diferencian entre sí?
¿Para qué se usan los elementos delta?
Delta es un término introducido con Delta Lake, la base para almacenar datos y tablas en el almacén de lago de Databricks. Delta Lake se concibió como un sistema unificado de administración de datos para controlar macrodatos transaccionales en tiempo real y por lotes, mediante la extensión de los archivos de datos parquet con un registro de transacciones basado en archivos para transacciones ACID y el control de metadatos escalables.
Delta Lake: administración de datos del sistema operativo para el almacén de lago
Delta Lake es una capa de almacenamiento de código abierto que proporciona confiabilidad a los lagos de datos agregando una capa de almacenamiento transaccional a los datos almacenados en la nube (en AWS S3, Azure Storage y GCS). Permite transacciones ACID, control de versiones de datos y funcionalidades de reversión. Permite controlar los datos por lotes y de streaming de forma unificada.
Las tablas delta se basan en esta capa de almacenamiento y proporcionan una abstracción de tabla, lo que facilita el trabajo con datos estructurados a gran escala mediante SQL y la API de DataFrame.
Tablas delta: la arquitectura de tabla de datos predeterminada
La tabla delta es el formato de tabla de datos predeterminado en Azure Databricks y es una característica del marco de datos de código abierto Delta Lake. Las tablas delta se usan normalmente para lagos de datos, donde los datos se ingieren a través de streaming o por grandes lotes.
Vea:
- Inicio rápido deDelta Lake: creación de una tabla
- Actualización y modificación de tablas de Delta Lake.
- La clase DeltaTable: la clase principal para interactuar mediante programación con tablas Delta.
Canalizaciones declarativas de Lakeflow: canalizaciones de datos
Las canalizaciones declarativas de Lakeflow administran el flujo de datos entre muchas tablas Delta, lo que simplifica el trabajo de ingenieros de datos en el desarrollo y la administración de ETL. La canalización es la unidad principal de ejecución para las canalizaciones declarativas de Lakeflow. Lakeflow Declarative Pipelines ofrece desarrollo de canalizaciones declarativas, confiabilidad de datos mejorada y operaciones de producción a escala de nube. Los usuarios pueden realizar operaciones por lotes y de streaming en la misma tabla y los datos están disponibles inmediatamente para realizar consultas. Definas las transformaciones a realizar en tus datos, y las canalizaciones declarativas de Lakeflow gestionan la orquestación de tareas, la administración de clústeres, la supervisión, la calidad de los datos y el manejo de errores. El escalado automático mejorado de las canalizaciones declarativas de Lakeflow puede gestionar las cargas de trabajo de streaming que son irregulares e impredecibles.
Consulte el tutorial canalizaciones declarativas de Lakeflow.
Tablas Delta frente a canalizaciones declarativas de Lakeflow
La tabla Delta es una manera de almacenar datos en tablas, mientras que Lakeflow Declarative Pipelines permite describir cómo fluyen los datos entre estas tablas mediante declaración. Lakeflow Declarative Pipelines es un marco declarativo que administra muchas tablas delta, creandolas y manteniendolas actualizadas. En resumen, las tablas Delta son una arquitectura de tabla de datos, mientras que Lakeflow Declarative Pipelines es un marco de canalización de datos.
Delta: ¿de código abierto o de propiedad?
Una fuerza de la plataforma de Azure Databricks es que no bloquea a los clientes en herramientas propietarias: Gran parte de la tecnología se basa en proyectos de código abierto, a los que Contribuye Azure Databricks.
Los proyectos de Delta OSS son ejemplos:
- Proyecto Delta Lake: almacenamiento de código abierto para un almacén de lago.
- Protocolo Delta Sharing: protocolo abierto para el uso compartido seguro de datos.
Lakeflow Declarative Pipelines es un marco propietario en Azure Databricks.
¿Cuáles son los otros elementos delta en Azure Databricks?
A continuación, se muestran descripciones de otras características que incluyen delta en su nombre.
Uso compartido delta
Un estándar abierto para el uso compartido seguro de datos, Delta Sharing permite el uso compartido de datos entre organizaciones independientemente de la plataforma de proceso.
Motor delta
Optimizador de consultas para macrodatos que usa la tecnología de código abierto Delta Lake incluida en Databricks. El motor delta optimiza el rendimiento de las operaciones de Spark SQL, Databricks SQL y DataFrame mediante la inserción de cálculos en los datos.
Registro de transacciones de Delta Lake (o DeltaLogs)
Una única fuente de verdad que realiza un seguimiento de todos los cambios que los usuarios realizan en la tabla y el mecanismo a través del que Delta Lake garantiza la atomicidad. Consulte el protocolo de registro de transacciones delta en GitHub.
El registro de transacciones es clave para comprender Delta Lake, ya que es el subproceso común que se ejecuta a través de muchas de sus características más importantes:
- Transacciones ACID
- Control escalable de metadatos
- Viaje en el tiempo
- Y muchos más.