Creación y administración de definiciones de trabajos de Apache Spark en Visual Studio Code

La extensión de Visual Studio (VS) Code para Synapse es totalmente compatible con la experiencia de definición de trabajo de Spark CURD (crear, actualizar, leer y eliminar) en Fabric. Después de crear una definición de trabajo de Spark, puede cargar más bibliotecas a las que se hace referencia, enviar una solicitud para ejecutar la definición de trabajo de Spark y comprobar el historial de ejecución.

Creación de una definición de trabajo de Spark

Para crear una nueva definición de trabajo de Spark:

  1. En el Explorador de VS Code, seleccione la opción Crear definición de trabajo de Spark.

    Screenshot of VS Code Explorer, showing where to select the Create Spark Job Definition option.

  2. Escriba los campos necesarios iniciales: nombre, almacén de lago al que se hace referencia y almacén de lago predeterminado.

  3. Los procesos de solicitud y el nombre de la definición de trabajo de Spark recién creada aparece en el nodo raíz Definición de trabajo de Spark en el Explorador de VS Code. En el nodo de nombre de la definición de trabajo de Spark se ven tres subnodos:

    • Archivos: lista del archivo de definición principal y otras bibliotecas a las que se hace referencia. Puede cargar nuevos archivos de esta lista.
    • Almacén de lago: lista de todos los almacenes de lago a los que hace referencia esta definición de trabajo de Spark. El almacén de lago predeterminado se marca en la lista y puede acceder a él a través de la ruta de acceso relativa Files/…, Tables/….
    • Ejecutar: lista del historial de ejecución de esta definición de trabajo de Spark y el estado del trabajo de cada ejecución.

Carga de un archivo de definición principal en una biblioteca a la que se hace referencia

Para cargar o sobrescribir el archivo de definición principal, seleccione la opción Agregar archivo principal.

Screenshot of VS Code Explorer, showing where to select the Add Main File option.

Para cargar el archivo de biblioteca al que se hace referencia en el archivo de definición principal, seleccione la opción Agregar archivo de biblioteca.

Screenshot showing upload lib button.

Después de cargar un archivo, puede invalidarlo haciendo clic en la opción Actualizar archivo y cargando un nuevo archivo, o puede eliminar el archivo a través de la opción Eliminar.

Screenshot of VS Code Explorer, showing where to find the Update File and Delete options.

Envío de una solicitud de ejecución

Para enviar una solicitud para ejecutar la definición de trabajo de Spark desde VS Code:

  1. En las opciones a la derecha del nombre de la definición de trabajo de Spark que desea ejecutar, seleccione la opción Ejecutar trabajo de Spark.

    Screenshot of VS Code Explorer, showing where to select Run Spark Job.

  2. Después de enviar la solicitud, aparece una nueva aplicación de Spark en el nodo Ejecuciones de la lista Explorador. Para cancelar el trabajo en ejecución, seleccione la opción Cancelar trabajo de Spark.

    Screenshot of VS Code Explorer with the new Spark application listed under the Runs node, and showing where to find the Cancel Spark Job option.

Apertura de una definición de trabajo de Spark en el portal de Fabric

Para abrir la página de creación de la definición de trabajo de Spark en el portal de Fabric, seleccione la opción Abrir en el explorador.

También puede seleccionar Abrir en el explorador junto a una ejecución completada para ver la página de supervisión detallada de esa ejecución.

Screenshot of VS Code Explorer, showing where to select the Open in Browser option.

Depuración del código fuente de la definición de trabajo de Spark (Python)

Si la definición de trabajo de Spark se crea con PySpark (Python), puede descargar el script .py del archivo de definición principal y el archivo al que se hace referencia y depurar el script de origen en VS Code.

  1. Para descargar el código fuente, seleccione la opción Depurar definición de trabajo de Spark a la derecha de la definición de trabajo de Spark.

    Screenshot showing download source button.

  2. Una vez completada la descarga, se abre automáticamente la carpeta del código fuente.

  3. Seleccione la opción Confiar en los autores cuando se le solicite. (Esta opción solo aparece la primera vez que abre la carpeta. Si no selecciona esta opción, no puede depurar ni ejecutar el script de origen. Para obtener más información, consulte Seguridad de Confianza del área de trabajo de Visual Studio Code.)

  4. Si ha descargado el código fuente antes, se le pedirá que confirme que la quiere sobrescribir la versión local con la nueva descarga.

    Nota:

    En la carpeta raíz del script de origen, el sistema crea una subcarpeta denominada conf. Dentro de esta carpeta, un archivo denominado light-config.json contiene algunos metadatos del sistema necesarios para la ejecución remota. NO realice ningún cambio en él.

  5. El archivo denominado sparkconf.py contiene un fragmento de código que debe agregar para configurar el objeto SparkConf. Para habilitar la depuración remota, asegúrese de que el objeto SparkConf está configurado correctamente. En la imagen siguiente se muestra la versión original del código fuente.

    Screenshot of a code sample, showing the source code before the change.

    La siguiente imagen es el código fuente actualizado después de copiar y pegar el fragmento de código.

    Screenshot of a code sample, showing the source code after the change.

  6. Después de actualizar el código fuente con la configuración necesaria, debe elegir el intérprete de Python adecuado. Asegúrese de seleccionar el que está instalado en el entorno synapse-spark-kernel de conda.

Editar las propiedades de definición de trabajo de Spark

Puede editar las propiedades detalladas de las definiciones de trabajo de Spark, como los argumentos de la línea de comandos.

  1. Seleccione la opción Actualizar configuración de SJD para abrir un archivo settings.yml. Las propiedades existentes rellenan el contenido de este archivo.

    Screenshot showing where to select the Update SJD Configuration option for a Spark job definition.

  2. Actualice y guarde el archivo .yml.

  3. Seleccione la opción Publicar propiedad de SJD en la esquina superior derecha para volver a sincronizar el cambio en el área de trabajo remota.

    Screenshot showing where to select the Publish SJD Property option for a Spark job definition.