Experiencia de definición de trabajos de Spark en VS Code

La extensión de Visual Studio Code para Synapse es totalmente compatible con la experiencia de definición de trabajo de Spark de Spark (crear, actualizar, leer y eliminar) en Fabric. Después de crear una definición de trabajo de Spark, puede cargar más bibliotecas a las que se hace referencia, enviar una solicitud para ejecutar la definición del trabajo de Spark y comprobar el historial de ejecución.

Importante

Microsoft Fabric está en versión preliminar.

Creación de una definición de trabajo de Spark

Para crear una nueva definición de trabajo de Spark:

  1. En el Explorador de VS Code, seleccione la opción Crear definición de trabajo de Spark .

    Captura de pantalla del Explorador de VS Code, en la que se muestra dónde seleccionar la opción Crear definición de trabajo de Spark.

  2. Escriba los campos necesarios iniciales: name, referenced lakehouse y default lakehouse.

  3. Una vez procesada la solicitud, el nombre del SJD recién creado aparece en el nodo raíz Definición de trabajo de Spark en el Explorador de VS Code. En el nodo de nombre de definición de trabajo de Spark, se enumeran tres subnodos:

    • Archivos: lista del archivo de definición principal y otras bibliotecas a las que se hace referencia. Puede cargar nuevos archivos de esta lista.
    • Lakehouse: lista de todas las casas de lago a las que hace referencia esta definición de trabajo de Spark. El lago predeterminado se marca en la lista y puede acceder a él a través de la ruta de acceso Files/…, Tables/…relativa.
    • Ejecutar: lista del historial de ejecución de esta definición de trabajo de Spark y el estado del trabajo de cada ejecución.

Carga de un archivo de definición principal en una biblioteca a la que se hace referencia

Para cargar o sobrescribir el archivo de definición principal, seleccione la opción Agregar archivo principal .

Captura de pantalla del Explorador de VS Code, en la que se muestra dónde seleccionar la opción Agregar archivo principal.

Para cargar el archivo de biblioteca al que se hace referencia en el archivo de definición principal, seleccione la opción Agregar archivo lib .

Captura de pantalla que muestra el botón cargar lib.

Después de cargar un archivo, puede invalidarlo haciendo clic en la opción Actualizar archivo y cargando un nuevo archivo, o simplemente eliminar el archivo a través de la opción Eliminar .

Captura de pantalla del Explorador de VS Code, en la que se muestra dónde encontrar las opciones Actualizar archivo y Eliminar.

Envío de una solicitud de ejecución

Para enviar una solicitud para ejecutar la definición de trabajo de Spark desde VS Code:

  1. En las opciones a la derecha del nombre de la definición de trabajo de Spark que desea ejecutar, seleccione la opción Ejecutar trabajo de Spark .

    Captura de pantalla del Explorador de VS Code, en la que se muestra dónde seleccionar Ejecutar trabajo de Spark.

  2. Después de enviar la solicitud, aparece una nueva aplicación Spark en el nodo Ejecuciones de la lista Explorador. Para cancelar el trabajo en ejecución, seleccione la opción Cancelar trabajo de Spark .

    Captura de pantalla del Explorador de VS Code con la nueva aplicación Spark que aparece en el nodo Ejecuciones y muestra dónde encontrar la opción Cancelar trabajo de Spark.

Apertura de una definición de trabajo de Spark en el portal de Fabric

Para abrir la página de creación de la definición de trabajo de Spark en el portal de Fabric, seleccione la opción Abrir en el explorador .

También puede seleccionar Abrir en el explorador junto a una ejecución completada para ver la página de supervisión detallada de esa ejecución.

Captura de pantalla del Explorador de VS Code, en la que se muestra dónde seleccionar la opción Abrir en el explorador.

Depuración del código fuente de definición de trabajo de Spark (Python)

Si la definición del trabajo de Spark se crea con PySpark (Python), puede descargar el script .py del archivo de definición principal y el archivo al que se hace referencia y depurar el script de origen en VS Code.

  1. Para descargar el código fuente, seleccione la opción Depurar definición de trabajo de Spark a la derecha de la definición del trabajo de Spark.

    Captura de pantalla que muestra el botón descargar origen.

  2. Una vez finalizada la descarga, se abre automáticamente la carpeta del código fuente.

  3. Seleccione la opción Confiar en los autores cuando se le solicite. (Esta opción solo aparece la primera vez que abre la carpeta. Si no selecciona esta opción, no podrá depurar ni ejecutar el script de origen. Para más información, consulte Visual Studio Code seguridad de confianza del área de trabajo).

  4. Si ha descargado el código fuente antes, se le pedirá que confirme que la nueva descarga debe sobrescribir la versión local.

    Nota

    En la carpeta raíz del script de origen, el sistema crea una subcarpeta denominada conf. Dentro de esta carpeta, un archivo denominado light-config.json contiene algunos metadatos del sistema necesarios para la ejecución remota. No realice ningún cambio en él.

  5. El archivo denominado sparkconf.py contiene un fragmento de código que debe agregar para configurar el objeto SparkConf . Para habilitar la depuración remota, asegúrese de que el objeto SparkConf está configurado correctamente. En la imagen siguiente se muestra la versión original del código fuente.

    Captura de pantalla de un ejemplo de código, que muestra el código fuente antes del cambio.

    La siguiente imagen es el código fuente actualizado después de copiar y pegar el fragmento de código.

    Captura de pantalla de un ejemplo de código, que muestra el código fuente después del cambio.

  6. Después de actualizar el código fuente con la conf necesaria, debe elegir el intérprete de Python adecuado. Asegúrese de seleccionar el instalado en el entorno de conda synapse-spark-kernel .

Editar las propiedades de definición de trabajo de Spark

Puede editar las propiedades detalladas de las definiciones de trabajo de Spark, como los argumentos de la línea de comandos.

  1. Seleccione la opción Actualizar configuración de SJD para abrir un archivo settings.yml . Las propiedades existentes rellenan el contenido de este archivo.

    Captura de pantalla que muestra dónde seleccionar la opción Actualizar configuración de SJD para una definición de trabajo de Spark.

  2. Actualice y guarde el archivo .yml.

  3. Seleccione la opción Publicar propiedad SJD en la esquina superior derecha para volver a sincronizar el cambio en el área de trabajo remota.

    Captura de pantalla que muestra dónde seleccionar la opción Publicar propiedad SJD para una definición de trabajo de Spark.

Pasos siguientes