Partage via


Créer un notebook paramétrisé avec Papermill

Dans Azure Data Studio, la paramétrisation permet d’exécuter un même notebook avec un ensemble différent de paramètres.

Cet article vous montre comment créer et exécuter un notebook paramétrisé dans Azure Data Studio à l’aide du noyau Python.

Notes

Vous pouvez utiliser la paramétrisation avec les noyaux Python, PySpark, PowerShell et .NET interactif.

Prérequis

Installer et configurer Papermill dans Azure Data Studio

Toutes les étapes de cette section sont effectuées dans un notebook Azure Data Studio.

  1. Créer un nouveau bloc-notes. Remplacez la valeur de Noyau par Python 3 :

    Screenshot that shows the New notebook menu option and setting the Kernel value to Python 3.

  2. Si vous êtes invité à mettre à niveau vos packages Python quand ceux-ci doivent être mis à jour, sélectionnez Oui :

    Screenshot that shows the dialog prompt to update Python packages.

  3. Installez Papermill :

    import sys
    !{sys.executable} -m pip install papermill --no-cache-dir --upgrade
    

    Vérifiez que Papermill est bien installé :

    import sys
    !{sys.executable} -m pip list
    

    Screenshot that shows selecting Papermill in a list of application names.

  4. Pour vérifier que Papermill est bien installé, vérifiez la version de Papermill :

    import papermill
    papermill
    

    Screenshot that shows installation validation for Papermill.

Exemple de paramétrisation

Vous pouvez utiliser un exemple de fichier de notebook pour suivre les étapes décrites dans cet article :

  1. Accédez au fichier de notebook dans GitHub. Sélectionnez Raw.
  2. Sélectionnez CTRL + S ou cliquez avec le bouton droit, puis enregistrez le fichier avec l’extension .ipynb.
  3. Ouvrez le fichier dans Azure Data Studio.

Configurer un notebook paramétrable

Vous pouvez commencer par l’exemple de notebook qui est ouvert dans Azure Data Studio ou suivre les étapes ci-dessous pour créer un notebook. Essayez ensuite d’utiliser des paramètres différents. Toutes les étapes s’exécutent à l’intérieur d’un notebook Azure Data Studio.

  1. Vérifiez que Python 3 est sélectionné comme Noyau :

    Screenshot that shows the Kernel value to Python 3.

  2. Créez une nouvelle cellule de code. Sélectionnez Paramètres pour étiqueter la cellule en tant que cellule de paramètre.

    x = 2.0
    y = 5.0
    

    Screenshot that shows creating a new parameters cell with Parameters selected.

  3. Ajoutez d’autres cellules pour tester différents paramètres :

    addition = x + y
    multiply = x * y
    
    print("Addition: " + str(addition))
    print("Multiplication: " + str(multiply))
    

    Une fois toutes les cellules exécutées, la sortie ressemble à l’exemple suivant :

    Screenshot that shows the output of cells added to test new parameters.

  4. Enregistrez le notebook dans un fichier Input.ipynb :

    Screenshot that shows saving the notebook file.

Exécuter un notebook Papermill

Vous pouvez exécuter Papermill de deux manières :

  • Interface de ligne de commande (CLI)
  • API Python

Exécution de l’interface CLI paramétrable

Pour exécuter un notebook à l’aide de l’interface CLI, entrez la commande papermill dans le terminal avec le notebook d’entrée, l’emplacement du notebook de sortie et les options.

Notes

Pour plus d’informations, consultez la documentation sur l’interface CLI Papermill.

  1. Exécutez le notebook d’entrée avec les nouveaux paramètres :

    papermill Input.ipynb Output.ipynb -p x 10 -p y 20
    

    Cette commande exécute le notebook d’entrée avec de nouvelles valeurs pour les paramètres x et y.

  2. Une nouvelle cellule étiquetée # Injected-Parameters contient les nouvelles valeurs de paramètre qui ont été passées via l’interface CLI. Les nouvelles valeurs # Injected-Parameters sont utilisées pour la nouvelle sortie qui est affichée dans la dernière cellule :

    Screenshot that shows the output for new parameters.

Exécution de l’API Python paramétrable

Notes

Pour plus d’informations, consultez la documentation sur Python Papermill.

  1. Créer un nouveau bloc-notes. Remplacez la valeur de Noyau par Python 3 :

    Screenshot that shows the New notebook menu option and setting the Kernel value to Python 3.

  2. Ajoutez une cellule de code. Ensuite, utilisez l’API Python Papermill pour exécuter et générer le notebook de sortie paramétrisé :

    import papermill as pm
    
    pm.execute_notebook(
    '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Input.ipynb',
    '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Output.ipynb',
    parameters = dict(x = 10, y = 20)
    )
    

    Screenshot that shows the Python API execution.

  3. Une nouvelle cellule étiquetée # Injected-Parameters contient les nouvelles valeurs de paramètre qui ont été passées. Les nouvelles valeurs # Injected-Parameters sont utilisées pour la nouvelle sortie qui est affichée dans la dernière cellule :

    Screenshot that shows the output for new parameters.

Étapes suivantes

Découvrez-en plus sur les notebooks et le paramétrage :