Partage via


Créer un notebook paramétrisé avec Papermill

Dans Azure Data Studio, la paramétrisation permet d’exécuter un même notebook avec un ensemble différent de paramètres.

Cet article vous montre comment créer et exécuter un notebook paramétrisé dans Azure Data Studio à l’aide du noyau Python.

Notes

Vous pouvez utiliser la paramétrisation avec les noyaux Python, PySpark, PowerShell et .NET interactif.

Prérequis

Installer et configurer Papermill dans Azure Data Studio

Toutes les étapes de cette section sont effectuées dans un notebook Azure Data Studio.

  1. Créer un nouveau bloc-notes. Remplacez la valeur de Noyau par Python 3 :

    Capture d’écran qui montre l’option de menu Nouveau notebook, et la définition de la valeur du noyau sur Python 3.

  2. Si vous êtes invité à mettre à niveau vos packages Python quand ceux-ci doivent être mis à jour, sélectionnez Oui :

    Capture d’écran montrant la boîte de dialogue qui vous invite à mettre à jour les packages Python.

  3. Installez Papermill :

    import sys
    !{sys.executable} -m pip install papermill --no-cache-dir --upgrade
    

    Vérifiez que Papermill est bien installé :

    import sys
    !{sys.executable} -m pip list
    

    Capture d’écran qui montre la sélection de Papermill dans une liste de noms d’applications.

  4. Pour vérifier que Papermill est bien installé, vérifiez la version de Papermill :

    import papermill
    papermill
    

    Capture d’écran montrant la vérification de l’installation de Papermill.

Exemple de paramétrisation

Vous pouvez utiliser un exemple de fichier de notebook pour suivre les étapes décrites dans cet article :

  1. Accédez au fichier de notebook dans GitHub. Sélectionnez Raw.
  2. Sélectionnez CTRL + S ou cliquez avec le bouton droit, puis enregistrez le fichier avec l’extension .ipynb.
  3. Ouvrez le fichier dans Azure Data Studio.

Configurer un notebook paramétrable

Vous pouvez commencer par l’exemple de notebook qui est ouvert dans Azure Data Studio ou suivre les étapes ci-dessous pour créer un notebook. Essayez ensuite d’utiliser des paramètres différents. Toutes les étapes s’exécutent à l’intérieur d’un notebook Azure Data Studio.

  1. Vérifiez que Python 3 est sélectionné comme Noyau :

    Capture d’écran montrant la valeur du noyau définie sur Python 3.

  2. Créez une nouvelle cellule de code. Sélectionnez Paramètres pour étiqueter la cellule en tant que cellule de paramètre.

    x = 2.0
    y = 5.0
    

    Capture d’écran montrant la création d’une cellule de paramètre avec l’option Paramètres sélectionnée.

  3. Ajoutez d’autres cellules pour tester différents paramètres :

    addition = x + y
    multiply = x * y
    
    print("Addition: " + str(addition))
    print("Multiplication: " + str(multiply))
    

    Une fois toutes les cellules exécutées, la sortie ressemble à l’exemple suivant :

    Capture d’écran montrant la sortie des cellules ajoutées pour tester les nouveaux paramètres.

  4. Enregistrez le notebook dans un fichier Input.ipynb :

    Capture d’écran montrant du fichier de notebook.

Exécuter un notebook Papermill

Vous pouvez exécuter Papermill de deux manières :

  • Interface de ligne de commande (CLI)
  • API Python

Exécution de l’interface CLI paramétrable

Pour exécuter un notebook à l’aide de l’interface CLI, entrez la commande papermill dans le terminal avec le notebook d’entrée, l’emplacement du notebook de sortie et les options.

Notes

Pour plus d’informations, consultez la documentation sur l’interface CLI Papermill.

  1. Exécutez le notebook d’entrée avec les nouveaux paramètres :

    papermill Input.ipynb Output.ipynb -p x 10 -p y 20
    

    Cette commande exécute le notebook d’entrée avec de nouvelles valeurs pour les paramètres x et y.

  2. Une nouvelle cellule étiquetée # Injected-Parameters contient les nouvelles valeurs de paramètre qui ont été passées via l’interface CLI. Les nouvelles valeurs # Injected-Parameters sont utilisées pour la nouvelle sortie qui est affichée dans la dernière cellule :

    Capture d’écran qui montre la sortie des nouveaux paramètres.

Exécution de l’API Python paramétrable

Notes

Pour plus d’informations, consultez la documentation sur Python Papermill.

  1. Créer un nouveau bloc-notes. Remplacez la valeur de Noyau par Python 3 :

    Capture d’écran qui montre l’option de menu Nouveau notebook, et la définition de la valeur du noyau sur Python 3.

  2. Ajoutez une cellule de code. Ensuite, utilisez l’API Python Papermill pour exécuter et générer le notebook de sortie paramétrisé :

    import papermill as pm
    
    pm.execute_notebook(
    '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Input.ipynb',
    '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Output.ipynb',
    parameters = dict(x = 10, y = 20)
    )
    

    Capture d’écran montrant l’exécution de l’API Python.

  3. Une nouvelle cellule étiquetée # Injected-Parameters contient les nouvelles valeurs de paramètre qui ont été passées. Les nouvelles valeurs # Injected-Parameters sont utilisées pour la nouvelle sortie qui est affichée dans la dernière cellule :

    Capture d’écran qui montre la sortie des nouveaux paramètres.

Étapes suivantes

Découvrez-en plus sur les notebooks et le paramétrage :