Compartir vía


Desencadenar trabajos cuando llegan nuevos archivos

Puede usar desencadenadores de llegada de archivos para desencadenar una ejecución del trabajo de Azure Databricks cuando llegan nuevos archivos a una ubicación externa, como Amazon S3, Azure Storage o Google Cloud Storage. Puede usar esta característica cuando un trabajo programado es ser ineficaz porque los nuevos datos llegan según una programación irregular.

Los desencadenadores de llegada de archivos hacen todo lo posible para comprobar los archivos nuevos cada minuto, aunque esto puede verse afectado por el rendimiento del almacenamiento en la nube subyacente. Los desencadenadores de llegada de archivos no incurren en costos adicionales que no sean los costos del proveedor de nube asociados con la enumeración de archivos en la ubicación de almacenamiento.

Se puede configurar un desencadenador de llegada de archivos para supervisar la raíz de una ubicación o volumen externo de Unity Catalog, o un subtrazado de una ubicación o volumen externo. Por ejemplo, para el volumen raíz /Volumes/mycatalog/myschema/myvolume/ de Unity Catalog, las siguientes son rutas de acceso válidas para un desencadenador de llegada de archivos:

/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/

Un desencadenador de llegada de archivos comprueba recursivamente si hay nuevos archivos en todos los subdirectorios de la ubicación configurada. Por ejemplo, si crea un desencadenador de llegada de archivos para la ubicación /Volumes/mycatalog/myschema/myvolume/mydirectory/ y esta ubicación tiene los subdirectorios siguientes:

/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirA
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirB
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirC/subdirD

El desencadenador comprueba si hay nuevos archivos en mydirectory, subdirA, subdirB, subdirCy subdirC/subdirD.

Requisitos

Para utilizar los desencadenadores de llegada de archivo se requiere lo siguiente:

Limitaciones

  • Solo se ejecuta el desencadenador de archivos nuevos. La sobrescritura de un archivo existente con un archivo con el mismo nombre no desencadena una ejecución.
  • Se puede configurar un máximo de cincuenta trabajos con un desencadenador de llegada de archivo en un área de trabajo de Azure Databricks.
  • Una ubicación de almacenamiento configurada para un desencadenador de llegada de archivos solo puede contener hasta 10 000 archivos. Las ubicaciones con más archivos no se pueden supervisar para las nuevas llegadas de archivos. Si la ubicación de almacenamiento configurada es un subtrazado de una ubicación externa o volumen de Unity Catalog, el límite de 10 000 archivos se aplica al subtrazado y no a la raíz de la ubicación de almacenamiento. Por ejemplo, la raíz de la ubicación de almacenamiento puede contener más de 10 000 archivos en sus subdirectorios, pero el subdirectorio configurado no debe superar el límite de 10 000 archivos.
  • La ruta de acceso que se use para un desencadenador de llegada de archivos no debe contener tablas externas ni ubicaciones administradas de catálogos y esquemas.
  • La ruta de acceso usada para un desencadenador de llegada de archivos no puede contener caracteres comodín, por ejemplo, * o ?.

Agregar un desencadenador de llegada de archivo

Para agregar un desencadenador de llegada de archivo a un trabajo:

  1. En la barra lateral, haga clic en Áreas de trabajo.
  2. En la columna Nombre de la pestaña Trabajos, haga clic en el nombre del trabajo.
  3. En el panel Detalles del trabajo de la derecha, haga clic en Agregar desencadenador.
  4. En Tipo de desencadenador, seleccione Llegada de archivo.
  5. En Ubicación de almacenamiento, escriba la dirección URL de la raíz o un subtrazado de una ubicación externa de Unity Catalog o la raíz o un subtrazado de un volumen de Unity Catalog que se va a supervisar.
  6. (Opcional) Configure las opciones avanzadas:
    • Tiempo mínimo entre desencadenadores en segundos: el tiempo mínimo para esperar a desencadenar una ejecución después de que se complete una ejecución anterior. Los archivos que llegan a este período desencadenan una ejecución solo después de que expire el tiempo de espera. Use esta configuración para controlar la frecuencia de creación de la ejecución.
    • Esperar después del último cambio en segundos: el tiempo de espera para desencadenar una ejecución después de la llegada del archivo. La llegada de otro archivo en este periodo restablece el temporizador. Esta configuración puede utilizarse cuando los archivos llegan por lotes y es necesario procesar todo el lote después de que hayan llegado todos los archivos.
  7. Para validar la configuración, haga clic en Probar conexión.
  8. Haga clic en Save(Guardar).

Recibimiento de notificaciones de desencadenadores de llegada de archivos con errores

Para recibir una notificación de si un desencadenador de llegada de archivos devuelve un error en la evaluación, configure las notificaciones de correo electrónico o de destino del sistema en caso de que se produzca un error de trabajo. Consulte Adición de notificaciones por correo electrónico y sistema para eventos de trabajo.