Consulte Ingesta de datos en una instancia de Databricks Lakehouse

Artículo
03/01/2024

Azure Databricks ofrece varias maneras de ayudarle a ingerir datos en un almacén de lago con el respaldo de Delta Lake. Databricks recomienda usar Auto Loader para la ingesta de datos incremental a partir del almacenamiento de objetos en la nube. La interfaz de usuario para agregar datos proporciona una serie de opciones para cargar rápidamente archivos locales o conectarse a orígenes de datos externos.

Ejecución de la primera carga de trabajo de ETL

Si no ha usado Auto Loader en Azure Databricks, comience con un tutorial. Consulte Ejecución de la primera carga de trabajo de ETL en Azure Databricks.

Cargador automático

Auto Loader procesa de forma incremental y eficaz nuevos archivos de datos a medida que llegan al almacenamiento en la nube sin necesidad de configuración adicional. El cargador automático proporciona un origen de streaming estructurado denominado cloudFiles. Dada una ruta de acceso del directorio de entrada en el almacenamiento de archivos en la nube, el origen cloudFiles procesa automáticamente los nuevos archivos a medida que llegan, con la opción de procesar también los archivos existentes en ese directorio.

Automatización de ETL con Delta Lives Tables y Auto Loader

Puede simplificar la implementación de una infraestructura de ingesta escalable e incremental con Auto Loader y Delta Live Tables. Tenga en cuenta que Delta Live Tables no usa la ejecución interactiva estándar que se encuentra en los cuadernos, sino que destaca la implementación de la infraestructura lista para producción.

Carga de archivos de datos locales o conexión a orígenes de datos externos

Puede cargar archivos de datos locales de forma segura o ingerir datos de orígenes externos para crear tablas. Consulte Carga de datos mediante la interfaz de usuario para agregar datos.

ingesta de datos en Azure Databricks mediante herramientas de terceros

Azure Databricks valida las integraciones de asociados tecnológicos que permiten ingerir datos en Azure Databricks. Estas integraciones permiten ingerir en Azure Databricks datos provenientes de varios orígenes de forma escalable y con poco código. Consulte Partners de tecnología. Algunos asociados tecnológicos se incluyen en Databricks Partner Connect, que proporciona una interfaz de usuario que simplifica la conexión de herramientas de terceros a los datos de Lakehouse.

COPY INTO

COPY INTO permite a los usuarios de SQL ingerir datos de forma idempotente e incremental desde el almacenamiento de objetos en la nube en tablas Delta. Se puede usar en Databricks SQL, cuadernos y trabajos de Databricks.

Cuándo usar COPY INTO y cuándo usar el cargador automático

Aspectos que se deben tener en cuenta al elegir entre Auto Loader y COPY INTO:

Si va a ingerir archivos por miles, puede usar COPY INTO. Si espera archivos por millones o más a lo largo del tiempo, use el cargador automático. Auto Loader requiere menos operaciones totales para detectar archivos en comparación con COPY INTO, y puede dividir el procesamiento en varios lotes; es decir, Auto Loader es menos costoso y más eficaz a gran escala.
Si el esquema de datos va a evolucionar con frecuencia, el cargador automático proporciona mejores primitivas en torno a la inferencia y la evolución del esquema. Consulte Configuración de inferencia y evolución de esquemas en Auto Loader para obtener más detalles.
La carga de un subconjunto de archivos recargados puede ser un poco más fácil de administrar con COPY INTO. Con el cargador automático, es más difícil volver a procesar un subconjunto selecto de archivos. Sin embargo, puede usar COPY INTO para volver a cargar el subconjunto de archivos mientras se ejecuta simultáneamente una secuencia de Auto Loader.
Para una experiencia de ingesta de archivos aún más escalable y sólida, Auto Loader permite que los usuarios de SQL puedan aprovechar las tablas de secuencia. Consulte Carga de datos mediante tablas de secuencia en Databricks SQL.

Para obtener una breve introducción y una demostración de Auto Loader, así como de COPY INTO, vea este vídeo de YouTube (2 minutos).

Revisión de los metadatos de archivo capturados durante la ingesta de datos

Apache Spark captura automáticamente los datos sobre los archivos de origen durante la carga de datos. Azure Databricks le permite acceder a estos datos con la Columna de metadatos de archivo.

Carga de exportaciones de hoja de cálculo a Azure Databricks

Use la página Crear o modificar la tabla a partir de la carga de archivos para cargar archivos CSV, TSV o JSON. Consulte Crear o modificar una tabla mediante la carga de archivos.

Migración de aplicaciones de datos a Azure Databricks

Migre las aplicaciones de datos existentes a Azure Databricks para que pueda trabajar con datos de muchos sistemas de origen en una sola plataforma. Consulte Migración de aplicaciones de datos a Azure Databricks.