Ingesta de datos del almacenamiento de objetos en la nube

2025-06-11

En este artículo se enumeran las formas en que puede configurar la ingesta incremental desde el almacenamiento de objetos en la nube.

Agregar la interfaz de usuario de datos

Para aprender a usar la interfaz de usuario de agregar datos para crear una tabla gestionada a partir de datos en el almacenamiento de objetos de la nube, vea Cargar datos con una ubicación externa de Unity Catalog.

Cuaderno o editor de SQL

En esta sección se describen las opciones para configurar la ingesta incremental desde el almacenamiento de objetos en la nube mediante un cuaderno o el editor de SQL de Databricks.

Cargador automático

Auto Loader procesa de forma incremental y eficaz nuevos archivos de datos a medida que llegan al almacenamiento en la nube sin necesidad de configuración adicional. El cargador automático proporciona un origen de streaming estructurado denominado cloudFiles. Dada una ruta de acceso del directorio de entrada en el almacenamiento de archivos en la nube, el origen cloudFiles procesa automáticamente los nuevos archivos a medida que llegan, con la opción de procesar también los archivos existentes en ese directorio.

COPY INTO

Con COPY INTO, los usuarios de SQL pueden ingerir datos de forma idempotente e incremental desde el almacenamiento de objetos en la nube en tablas Delta. Puede usar COPY INTO en Databricks SQL, cuadernos y trabajos de Lakeflow.

Cuándo usar COPY INTO y cuándo usar el cargador automático

Aspectos que se deben tener en cuenta al elegir entre Auto Loader y COPY INTO:

Si va a ingerir archivos en el orden de miles a lo largo del tiempo, puede usar COPY INTO. Si espera archivos en el orden de millones o más a lo largo del tiempo, use Auto Loader. Auto Loader requiere menos operaciones totales para detectar archivos en comparación con COPY INTO, y puede dividir el procesamiento en varios lotes; es decir, Auto Loader es menos costoso y más eficaz a gran escala.
Si el esquema de datos va a evolucionar con frecuencia, el cargador automático proporciona mejores tipos de datos primitivos en torno a la inferencia y la evolución del esquema. Consulte Configuración de inferencia y evolución de esquemas en Auto Loader para obtener más detalles.
La carga de un subconjunto de archivos recargados puede ser un poco más fácil de administrar con COPY INTO. Con Auto Loader, es más difícil volver a procesar un subconjunto selecto de archivos. Sin embargo, puede usar COPY INTO para volver a cargar el subconjunto de archivos mientras se ejecuta simultáneamente una secuencia de Auto Loader.

Para una experiencia de ingesta de archivos aún más escalable y sólida, Auto Loader permite a los usuarios de SQL aprovechar las tablas de transmisión. Consulte Uso de tablas de streaming en Databricks SQL.

Para obtener una breve introducción y una demostración de Auto Loader y COPY INTO, vea este vídeo de YouTube (2 minutos).

Automatización de ETL con canalizaciones declarativas de Lakeflow y cargador automático

Puede simplificar la implementación de una infraestructura de ingestión de datos escalable e incremental con Auto Loader y las Canalizaciones Declarativas de Lakeflow. Las canalizaciones declarativas de Lakeflow no usan la ejecución interactiva estándar que se encuentra en los cuadernos, sino que enfatizan la implementación de infraestructura lista para la producción.

Tablas de streaming

Herramientas de ingesta de terceros

Databricks valida las integraciones de asociados tecnológicos que permiten ingerir desde varios orígenes, incluido el almacenamiento de objetos en la nube. Estas integraciones permiten ingerir en Azure Databricks datos provenientes de varios orígenes de forma escalable y con poco código. Consulte Socios de tecnología. Algunos asociados tecnológicos se incluyen en ¿Qué es Databricks Partner Connect?, que proporciona una interfaz de usuario que simplifica la conexión de herramientas de terceros a los datos de Lakehouse.