Compartir a través de


Comparación de los modos de detección de archivos del cargador automático

El cargador automático admite dos modos para detectar nuevos archivos: lista de directorios y notificación de archivos. Puede cambiar los modos de detección de archivos a través de los reinicios de flujo y seguir obteniendo garantías de que los datos se procesan exactamente una vez.

Modo de lista de directorios

En el modo de lista de directorios, el cargador automático identifica los nuevos archivos enumerando el directorio de entrada. El modo de listado de directorios permite iniciar rápidamente los flujos del cargador automático sin ninguna configuración de permisos más que el acceso a los datos en el almacenamiento en la nube.

En Databricks Runtime 9.1 y versiones superiores, el cargador automático puede detectar automáticamente si los archivos llegan con ordenación léxica al almacenamiento en la nube y reducir significativamente la cantidad de llamadas API necesarias para detectar nuevos archivos. Consulte ¿Qué es el modo de lista de directorios del cargador automático? para más detalles.

Modo de notificación de archivos

El modo de notificación de archivos aprovecha los servicios de notificaciones de archivos y colas en la cuenta de infraestructura en la nube. El cargador automático puede configurar automáticamente un servicio de notificación y un servicio de cola que se suscriben a eventos de archivo desde el directorio de entrada.

El modo de notificación de archivos es más eficaz y escalable para directorios de entrada grandes o para un gran volumen de archivos, pero requiere permisos de nube adicionales para la configuración. Para más información, vea ¿Qué es el modo de notificación de archivos del cargador automático?.

Almacenamiento en la nube admitido por modos

A continuación se muestra la disponibilidad de estos modos.

Si migra desde una ubicación externa o un montaje de DBFS a un volumen de Unity Catalog, el cargador automático sigue proporcionando garantías exactamente una vez.

Almacenamiento en la nube Lista de directorios Notificaciones de archivo
AWS S3 Todas las versiones Todas las versiones
ADLS Gen2 Todas las versiones Todas las versiones
GCS Todas las versiones Databricks Runtime 9.1 y versiones superiores
Azure Blob Storage Todas las versiones Todas las versiones
ADLS Gen1 Todas las versiones No admitidas
DBFS Todas las versiones Solo para puntos de montaje
Volumen de Unity Catalog Databricks Runtime 13.3 LTS y versiones posteriores No compatible