¿Qué es una definición de trabajo de Apache Spark?

Una definición de trabajo de Apache Spark es un elemento de código de Microsoft Fabric que permite enviar trabajos por lote/streaming a clústeres de Spark. Al cargar los archivos binarios de la salida de compilación de diferentes lenguajes (por ejemplo, .jar de Java), puede aplicar diferentes lógicas de transformación a los datos alojados en un lago. Además del archivo binario, puede personalizar aún más el comportamiento del trabajo cargando bibliotecas adicionales y argumentos de línea de comandos.

Para ejecutar una definición de trabajo de Spark, debe tener al menos un lago de datos asociado. Este contexto de lago de datos predeterminado sirve como sistema de archivos predeterminado para el runtime de Spark. Para cualquier código de Spark que use una ruta de acceso relativa a los datos de lectura y escritura, los datos se sirven desde la lakehouse predeterminado.

Sugerencia

Para ejecutar un elemento de definición de trabajo de Spark, debe tener un archivo de definición principal y un contexto Lakehouse predeterminado. Si no tiene una instancia de Lakehouse, cree una siguiendo los pasos descritos en Creación de una instancia de Lakehouse.