Uso del proceso de Azure Databricks con los trabajos

Al ejecutar un trabajo de Azure Databricks, las tareas configuradas como parte del trabajo se ejecutan en el proceso de Azure Databricks, ya sea en un proceso sin servidor, un clúster o en un almacenamiento de datos de SQL en función del tipo de tarea. Seleccionar el tipo de proceso y las opciones de configuración es importante al poner en marcha un trabajo. En este artículo se proporcionan recomendaciones para usar los recursos de proceso de Azure Databricks para ejecutar los trabajos.

Para saber más sobre el uso del proceso sin servidor con los trabajos de Azure Databricks, consulte Ejecución del trabajo de Azure Databricks con proceso sin servidor para flujos de trabajo.

Nota:

Los secretos no se censuran de los flujos stdout y stderr de registros de controladores de Spark del clúster. Para proteger los datos confidenciales, los registros de controladores de Spark solo son visibles por los usuarios con el permiso CAN MANAGE en el trabajo, el modo de acceso de usuario único y los clústeres en modo de acceso compartido. Para permitir que los usuarios con los permisos CAN ATTACH TO o CAN RESTART puedan ver los registros de estos clústeres, establezca la siguiente propiedad de configuración de Spark en la configuración del clúster: spark.databricks.acl.needAdminPermissionToViewLogs false.

En clústeres de modo de acceso compartido sin aislamiento, los usuarios pueden ver los registros de controladores de Spark con el permiso CAN ATTACH TO o CAN MANAGE. Para limitar quién puede leer los registros solo a los usuarios con el permiso CAN MANAGE, establezca spark.databricks.acl.needAdminPermissionToViewLogs en true.

Consulte Configuración de Spark para obtener información sobre cómo agregar propiedades de Spark a una configuración de clúster.

Uso de clústeres de trabajos compartidos

Para optimizar el uso de recursos con trabajos que orquestan varias tareas, use clústeres de trabajos compartidos. Un clúster de trabajos compartidos permite que varias tareas del mismo trabajo reutilicen el clúster. Puede usar un único clúster de trabajos para ejecutar todas las tareas que forman parte del trabajo o varios clústeres de trabajos optimizados para cargas de trabajo específicas. Para usar un clúster de trabajos compartidos:

  1. Seleccione New Job Clusters (Nuevos clústeres de trabajos) al crear una tarea y complete la configuración del clúster.
  2. Seleccione el nuevo clúster al agregar una tarea al trabajo o cree un nuevo clúster de trabajos. Cualquier clúster que configure al seleccionar New Job Clusters (Nuevos clústeres de trabajos) estará disponible para cualquier tarea del trabajo.

Un clúster de trabajos compartidos está limitado a una sola ejecución del trabajo y no lo pueden usar otros trabajos ni ejecuciones del mismo trabajo.

En una configuración de clúster de trabajos compartidos no se pueden usar las bibliotecas. Debe agregar bibliotecas dependientes en la configuración de tareas.

Selección del tipo de clúster correcto para su trabajo

  • Los nuevos clústeres de trabajos son clústeres dedicados para la ejecución de un trabajo o tarea. Un clúster de trabajos compartido se crea e inicia cuando se inicia y finaliza la primera tarea que usa el clúster después de que se complete la última tarea con el clúster. El clúster no finaliza cuando está inactivo, sino que lo hace una vez que se han completado todas las tareas. Si se produce un error en un clúster de trabajos compartidos o este termina antes de que finalicen todas las tareas, se crea un nuevo clúster. Un clúster con ámbito en una sola tarea se crea e inicia cuando esta se inicia y finaliza cuando la misma se completa. En producción, Databricks recomienda usar nuevos clústeres con ámbito de tarea o compartidos para que cada trabajo o tarea se ejecute en un entorno completamente aislado.
  • Cuando se ejecuta una tarea en un nuevo clúster, la tarea se trata como una carga de trabajo de ingeniería de datos (tarea), sujeta a los precios de carga de trabajo de tareas. Cuando se ejecuta una tarea en un clúster de uso general existente, la tarea se trata como una carga de trabajo de análisis de datos (todos los propósitos), sujeta a los precios de cargas de trabajo de uso general.
  • Si selecciona un clúster existente finalizado y el propietario del trabajo tiene permiso CAN RESTART, Azure Databricks inicia el clúster cuando el trabajo está programado para ejecutarse.
  • Los clústeres de uso general existentes funcionan mejor para tareas como la actualización de paneles a intervalos regulares.

Uso de un grupo para reducir las horas de inicio del clúster

Para reducir la hora de inicio del nuevo clúster de trabajos, cree un grupo y configure el clúster del trabajo para que lo use.