Creación de una definición de trabajo de Apache Spark en Fabric

En este tutorial, aprenderá a crear una definición de trabajo de Spark en Microsoft Fabric.

Importante

Microsoft Fabric está en versión preliminar.

Requisitos previos

Para empezar, necesita los siguientes requisitos previos:

Sugerencia

Para ejecutar el elemento de definición de trabajo de Spark, se requieren el archivo de definición principal y el contexto de lakehouse predeterminado. Si no tiene una instancia de LakeHouse, puede crear una siguiendo los pasos descritos en Creación de una instancia de LakeHouse.

Creación de una definición de trabajo de Spark

El proceso de creación de la definición de trabajos de Spark es rápido y sencillo y hay varias maneras de empezar.

Opciones para crear una definición de trabajo de Spark

Hay varias maneras de empezar a trabajar con el proceso de creación:

  • Página principal de ingeniería de datos: puede crear fácilmente una definición de trabajo de Spark a través de la tarjeta de definición de trabajo de Spark en la sección Nuevo de la página principal.

Captura de pantalla que muestra dónde seleccionar la tarjeta de definición de trabajo de Spark.

  • Vista área de trabajo: también puede crear una definición de trabajo de Spark a través de la vista Área de trabajo cuando se encuentra en la experiencia de Ingeniería de datos mediante la lista desplegable Nuevo.

Captura de pantalla que muestra dónde seleccionar definición de trabajo de Spark en el menú Nuevo.

  • Crear centro: otro punto de entrada para crear una definición de trabajo de Spark está en la página Crear centro de conectividad en Ingeniería de datos.

Captura de pantalla que muestra dónde seleccionar la definición de trabajo de Spark en el centro de creación.

Se necesitaría un nombre para crear una definición de trabajo de Spark. El nombre debe ser único dentro del área de trabajo actual. La definición de trabajo de Spark recién creada se creará en el área de trabajo actual en la que se encuentra.

Creación de una definición de trabajo de Spark para PySpark (Python)

Para crear una definición de trabajo de Spark para PySpark, siga estos pasos:

  1. Cree una nueva definición de trabajo de Spark.

  2. Seleccione PySpark (Python) en la lista desplegable Lenguaje .

  3. Cargue el archivo de definición principal como archivo .py . El archivo de definición principal es el archivo que contiene la lógica de aplicación de este trabajo. El archivo de definición principal es obligatorio para ejecutar un trabajo de Spark. Para cada definición de trabajo de Spark, solo puede cargar un archivo de definición principal.

    Además de cargar desde el escritorio local, también puede cargar desde Azure Data Lake Storage Gen2 existente proporcionando la ruta de acceso completa abfss del archivo. Por ejemplo, abfss://your-storage-account-name.dfs.core.windows.net/your-file- ruta de acceso.

  4. Cargue archivos de referencia como archivo .py . los archivos de referencia son los módulos de Python importados por el archivo de definición principal. De forma similar a la carga del archivo de definición principal, también puede cargar desde la Azure Data Lake Storage Gen2 existente proporcionando la ruta de acceso completa abfss del archivo. Se admiten varios archivos de referencia.

Sugerencia

Si se usa la ruta de acceso de ADLS-gen2, para asegurarse de que el archivo sea accesible, la cuenta de usuario que se usa para ejecutar el trabajo debe asignarse con el permiso adecuado a la cuenta de almacenamiento. Hay dos maneras sugeridas de hacerlo:

  • Asigne la cuenta de usuario como rol Colaborador a la cuenta de almacenamiento.
  • Conceda permiso de lectura y ejecución a la cuenta de usuario en el archivo a través de Azure Data Lake Storage Gen2 Access Control List (ACL)

Para ejecutar manualmente, la cuenta del usuario de inicio de sesión actual se usaría para ejecutar el trabajo.

  1. Proporcione argumentos de línea de comandos al trabajo si es necesario. Use el espacio como divisor para separar los argumentos.

  2. Agregue la referencia de lakehouse al trabajo. Debe tener al menos una referencia de lakehouse agregada al trabajo. Este lakehouse es el contexto predeterminado de lakehouse para el trabajo. Se admiten varias referencias de lakehouse. En el caso de Lakehouse no predeterminado, puede encontrar su nombre y dirección URL completa de OneLake en la página Configuración de Spark.

    Captura de pantalla que muestra un ejemplo de una pantalla de archivo de definición principal rellenada.

En este ejemplo, hemos hecho lo siguiente:

  • Creación de una definición de trabajo de Spark denominada CSVToDelta para PySpark
  • Se cargó el archivo createTablefromCSV.py como archivo de definición principal.
  • Se agregaron las referencias de lakehouse LH001 y LH002 al trabajo.
  • Hizo LH001 el contexto de lakehouse predeterminado

Creación de una definición de trabajo de Spark para Scala/Java

Para crear una definición de trabajo de Spark para Scala/Java, siga estos pasos:

  1. Seleccione Spark(Scala/Java) en la lista desplegable Lenguaje .

  2. Cargue el archivo de definición principal como archivo .jar. El archivo de definición principal es el archivo que contiene la lógica de aplicación de este trabajo. Un archivo de definición principal es obligatorio para ejecutar un trabajo de Spark. Proporcione el nombre de la clase Main.

  3. Cargue archivos de referencia como archivo .jar. los archivos reference son los archivos a los que hace referencia o importa el archivo de definición principal.

  4. Proporciona argumentos de línea de comandos al trabajo si es necesario.

  5. Agregue la referencia de lakehouse al trabajo. Debe tener al menos una referencia de lakehouse agregada al trabajo. Este lakehouse es el contexto predeterminado de lakehouse para el trabajo.

Creación de una definición de trabajo de Spark para R

Para crear una definición de trabajo de Spark para SparkR(R), siga estos pasos:

  1. Seleccione SparkR(R) en la lista desplegable Lenguaje .

  2. Cargue el archivo de definición principal como . Archivo R. El archivo de definición principal es el archivo que contiene la lógica de aplicación de este trabajo. Un archivo de definición principal es obligatorio para ejecutar un trabajo de Spark.

  3. Cargue archivos de referencia como . Archivo R. los archivos reference son los archivos a los que hace referencia o importa el archivo de definición principal.

  4. Proporciona argumentos de línea de comandos al trabajo si es necesario.

  5. Agregue la referencia de lakehouse al trabajo. Debe tener al menos una referencia de lakehouse agregada al trabajo. Este lakehouse es el contexto predeterminado de lakehouse para el trabajo.

Nota

La definición del trabajo de Spark se creará en el área de trabajo actual en la que se encuentra.

Opciones para personalizar la definición de trabajo de Spark

Hay algunas opciones para personalizar aún más la ejecución de la definición de trabajo de Spark.

  • Proceso de Spark: en la pestaña Proceso de Spark , puede ver la versión en tiempo de ejecución, que es la versión de Spark que se usará para ejecutar el trabajo. También puede ver las opciones de configuración de Spark que se usarán para ejecutar el trabajo. Para personalizar las opciones de configuración de Spark, haga clic en el botón Agregar .

Captura de pantalla que muestra dónde editar la configuración de Spark.

  • Optimización: en la pestaña Optimización , puede habilitar y configurar la directiva de reintento para el trabajo. Cuando se habilita, se volverá a intentar el trabajo si se produce un error. También puede establecer el número máximo de reintentos y el intervalo entre reintentos. Para cada intento de reintento, se reiniciará el trabajo, asegúrese de que el trabajo es idempotente.

Captura de pantalla que muestra dónde configurar la directiva de reintento.

Pasos siguientes