Compartir vía


Creación de un cuaderno parametrizado mediante Papermill

La parametrización en Azure Data Studio ejecuta el mismo cuaderno con un conjunto de parámetros diferente.

En este artículo se explica cómo crear y ejecutar un cuaderno parametrizado en Azure Data Studio con el kernel de Python.

Nota

Actualmente, puede usar la parametrización con Python, PySpark, PowerShell y kernels interactivos de .NET.

Requisitos previos

Instalación y configuración de Papermill en Azure Data Studio

Todos los pasos de esta sección se ejecutan en un cuaderno de Azure Data Studio.

  1. Cree un nuevo notebook. Establezca el valor Kernel en Python 3:

    Captura de pantalla en la que se muestran la opción de menú Nuevo cuaderno y el establecimiento del valor Kernel en Python 3

  2. Si se le solicita que actualice los paquetes de Python cuando los paquetes deban actualizarse, seleccione :

    Captura de pantalla en la que se muestra la solicitud del cuadro de diálogo para actualizar los paquetes de Python

  3. Instale Papermill:

    import sys
    !{sys.executable} -m pip install papermill --no-cache-dir --upgrade
    

    Compruebe que Papermill esté instalado:

    import sys
    !{sys.executable} -m pip list
    

    Captura de pantalla en la que se muestra cómo seleccionar Papermill en una lista de nombres de aplicaciones

  4. Para verificar que Papermill esté instalado correctamente, compruebe la versión de Papermill:

    import papermill
    papermill
    

    Captura de pantalla en la que se muestra cómo validar la instalación de Papermill

Ejemplo de parametrización

Puede usar un archivo de cuaderno de ejemplo para seguir los pasos de este artículo:

  1. Vaya al archivo de cuaderno en GitHub. Seleccione Raw.
  2. Seleccione Ctrl+S o haga clic con el botón derecho y guarde el archivo con la extensión .ipynb.
  3. Abra el archivo en Azure Data Studio.

Configuración de un cuaderno parametrizado

Puede comenzar con el cuaderno de ejemplo abierto en Azure Data Studio o seguir los pasos a continuación para crear otro. Luego, pruebe a usar parámetros diferentes. Todos los pasos se ejecutan dentro de un cuaderno de Azure Data Studio.

  1. Compruebe que el valor Kernel esté establecido en Python 3:

    Captura de pantalla en la que se muestra el valor Kernel establecido en Python 3

  2. Cree una celda de código. Seleccione Parámetros para etiquetar la celda como una celda de parámetros.

    x = 2.0
    y = 5.0
    

    Captura de pantalla en la que se muestra la creación de una celda de parámetros con la opción Parámetros seleccionada

  3. Agregue otras celdas para probar diferentes parámetros:

    addition = x + y
    multiply = x * y
    
    print("Addition: " + str(addition))
    print("Multiplication: " + str(multiply))
    

    Una vez ejecutadas todas las celdas, el resultado tendrá un aspecto similar al de este ejemplo:

    Captura de pantalla en la que se muestra el resultado de las celdas agregadas para probar parámetros nuevos

  4. Guarde el cuaderno como Input.ipynb:

    Captura de pantalla en la que se muestra cómo guardar el archivo de cuaderno

Ejecución de un cuaderno de Papermill

Puede ejecutar Papermill de dos formas:

  • Interfaz de la línea de comandos (CLI)
  • API de Python

Ejecución con parámetros mediante la CLI

Para ejecutar un cuaderno mediante la CLI, escriba el comando papermill en el terminal junto con el cuaderno de entrada, la ubicación del cuaderno de salida y las opciones.

Nota

Para obtener más información, consulte la documentación de la CLI de Papermill.

  1. Ejecute el cuaderno de entrada con parámetros nuevos:

    papermill Input.ipynb Output.ipynb -p x 10 -p y 20
    

    Este comando ejecuta el cuaderno de entrada con valores nuevos para los parámetros x e y.

  2. En una celda nueva con la etiqueta # Injected-Parameters se incluyen los valores de parámetro nuevos que se han pasado a través de la CLI. Los valores # Injected-Parameters nuevos se usan para el resultado nuevo que se muestra en la última celda:

    Captura de pantalla en la que se muestra el resultado de los parámetros nuevos

Ejecución con parámetros mediante la API de Python

Nota

Para obtener más información, consulte la documentación de Python de Papermill.

  1. Cree un nuevo notebook. Establezca el valor Kernel en Python 3:

    Captura de pantalla en la que se muestran la opción de menú Nuevo cuaderno y el establecimiento del valor Kernel en Python 3

  2. Añada una celda de código nueva. A continuación, use la API de Python de Papermill para ejecutar y generar el cuaderno parametrizado de salida:

    import papermill as pm
    
    pm.execute_notebook(
    '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Input.ipynb',
    '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Output.ipynb',
    parameters = dict(x = 10, y = 20)
    )
    

    Captura de pantalla en la que se muestra cómo ejecutar la API de Python

  3. En una celda nueva con la etiqueta # Injected-Parameters se incluyen los valores de parámetro nuevos que se han pasado. Los valores # Injected-Parameters nuevos se usan para el resultado nuevo que se muestra en la última celda:

    Captura de pantalla en la que se muestra el resultado de los parámetros nuevos

Pasos siguientes

Obtenga más información sobre los cuadernos y la parametrización: