Cree su primer flujo de trabajo con un trabajo de Azure Databricks

En este artículo, se muestra un trabajo de Azure Databricks que organiza las tareas para leer y procesar un conjunto de datos de ejemplo. En esta guía de inicio rápido:

  1. Crear un cuaderno y agregar código para recuperar un conjunto de datos de ejemplo que contenga nombres populares de bebés por año
  2. Guarde el conjunto de datos de muestra en Unity Catalog.
  3. Crear un cuaderno y agregar código para leer el conjunto de datos desde Unity Catalog, filtrarlo por año y mostrar los resultados.
  4. Crear un trabajo y configurar dos tareas mediante los cuadernos.
  5. Ejecutar el trabajo y ver los resultados

Requisitos

Si el área de trabajo está habilitada para Unity Catalog y Flujos de trabajo sin servidor está habilitado, el trabajo se ejecuta en proceso sin servidor de forma predeterminada. No necesita permiso de creación de clústeres para ejecutar el trabajo con proceso sin servidor.

De lo contrario, deberá tener permiso de creación de clústeres para crear procesos de trabajo o permisos para recursos informáticos polivalentes.

Debe tener un volumen en Unity Catalog. En este artículo se usa un volumen denominado my-volume en un esquema denominado default dentro de un catálogo denominado main. Además, debe tener los permisos siguientes en Unity Catalog:

  • READ VOLUME y WRITE VOLUME, o ALL PRIVILEGES, para el volumen my-volume.
  • USE SCHEMA o ALL PRIVILEGES para el esquema default.
  • USE CATALOG o ALL PRIVILEGES para el catálogo main.

Para establecer estos permisos, consulte el administrador de Databricks o los privilegios de Unity Catalog y objetos protegibles.

Creación de los cuadernos

Recuperación y guardado de datos

Para crear un cuaderno para recuperar el conjunto de datos de ejemplo y guardarlo en Unity Catalog:

  1. Vaya a la página de aterrizaje de Azure Databricks y haga clic en Icono nuevoNuevo en la barra lateral y seleccione Cuaderno. Databricks crea y abre un nuevo cuaderno en blanco en la carpeta predeterminada. El idioma predeterminado es el idioma que ha usado de manera más reciente y el cuaderno se adjunta automáticamente al recurso de proceso que ha usado de manera más reciente.

  2. Si es necesario, cambie el lenguaje predeterminado a Python.

  3. Copie el código de Python siguiente y péguelo en la primera celda del cuaderno.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

Lectura y visualización de datos filtrados

Para crear un cuaderno para leer y presentar los datos para filtrarlos:

  1. Vaya a la página de aterrizaje de Azure Databricks y haga clic en Icono nuevoNuevo en la barra lateral y seleccione Cuaderno. Databricks crea y abre un nuevo cuaderno en blanco en la carpeta predeterminada. El idioma predeterminado es el idioma que ha usado de manera más reciente y el cuaderno se adjunta automáticamente al recurso de proceso que ha usado de manera más reciente.

  2. Si es necesario, cambie el lenguaje predeterminado a Python.

  3. Copie el código de Python siguiente y péguelo en la primera celda del cuaderno.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Creación de un trabajo

  1. Haga clic en Icono de trabajosTrabajos en la barra lateral.

  2. Haga clic en el botón Crear trabajo.

    La pestaña Tasks (Tareas) se muestra con el cuadro de diálogo Create task (Crear tarea).

    Crear diálogo de primera tarea

  3. Reemplace Add a name for your job… (Agregar un nombre para el trabajo…) por el nombre del trabajo.

  4. En el campo Task name (Nombre de tarea), escriba un nombre para la tarea; por ejemplo, retrieve-baby-names.

  5. En el menú desplegable Tipo, seleccione Notebook.

  6. Use el explorador de archivos para buscar el primer cuaderno que creó, haga clic en el nombre del cuaderno y haga clic en Confirm (Confirmar).

  7. Haga clic en Create task (Crear tarea).

  8. Haga clic en el botón Agregar tarea debajo de la tarea que acaba de crear para agregar otra tarea.

  9. En el campo Task name (Nombre de tarea), escriba un nombre para la tarea; por ejemplo, filter-baby-names.

  10. En el menú desplegable Tipo, seleccione Notebook.

  11. Use el explorador de archivos para buscar el segundo cuaderno que creó, haga clic en el nombre del cuaderno y haga clic en Confirm (Confirmar).

  12. Haga clic en Add (Agregar) en Parameters (Parámetros). En el campo Key (Clave), escriba year. En el campo Value (Valor), escriba 2014.

  13. Haga clic en Create task (Crear tarea).

Ejecutar el trabajo

Para ejecutar el trabajo inmediatamente, haga clic en el botón Ejecutar ahora en la esquina superior derecha. También puede ejecutar el trabajo haciendo clic en la pestaña Runs (Ejecuciones) y haciendo clic en Run Now (Ejecutar ahora) en la tabla Active Runs (Ejecuciones activas).

Visualización de los detalles de ejecución

  1. Haga clic en la pestaña Runs y haga clic en el vínculo para la ejecución en la tabla Active Runs o en la tabla Completed Runs (past 60 days).

  2. Haga clic en cualquiera de las tareas para ver la salida y los detalles. Por ejemplo, haga clic en la tarea filter-baby-names para ver la salida y los detalles de la ejecución de la tarea de filtro:

    Ver resultados de nombres de filtro

Ejecución con otros parámetros

Para volver a ejecutar el trabajo y filtrar los nombres de bebés para otro año:

  1. Haga clic en el símbolo de intercalación azul junto a Run Now (Ejecutar ahora) y seleccione Run Now with Different Parameters (Ejecutar ahora con parámetros diferentes) o haga clic en Run Now with Different Parameters (Ejecutar ahora con parámetros diferentes) en la tabla Active Runs (Ejecuciones activas).
  2. En el campo Value (Valor), escriba 2015.
  3. Haga clic en Ejecutar.