Créer un notebook paramétrisé avec Papermill
Dans Azure Data Studio, la paramétrisation permet d’exécuter un même notebook avec un ensemble différent de paramètres.
Cet article vous montre comment créer et exécuter un notebook paramétrisé dans Azure Data Studio à l’aide du noyau Python.
Notes
Vous pouvez utiliser la paramétrisation avec les noyaux Python, PySpark, PowerShell et .NET interactif.
Prérequis
Installer et configurer Papermill dans Azure Data Studio
Toutes les étapes de cette section sont effectuées dans un notebook Azure Data Studio.
Créer un nouveau bloc-notes. Remplacez la valeur de Noyau par Python 3 :
Si vous êtes invité à mettre à niveau vos packages Python quand ceux-ci doivent être mis à jour, sélectionnez Oui :
Installez Papermill :
import sys !{sys.executable} -m pip install papermill --no-cache-dir --upgrade
Vérifiez que Papermill est bien installé :
import sys !{sys.executable} -m pip list
Pour vérifier que Papermill est bien installé, vérifiez la version de Papermill :
import papermill papermill
Exemple de paramétrisation
Vous pouvez utiliser un exemple de fichier de notebook pour suivre les étapes décrites dans cet article :
- Accédez au fichier de notebook dans GitHub. Sélectionnez Raw.
- Sélectionnez CTRL + S ou cliquez avec le bouton droit, puis enregistrez le fichier avec l’extension .ipynb.
- Ouvrez le fichier dans Azure Data Studio.
Configurer un notebook paramétrable
Vous pouvez commencer par l’exemple de notebook qui est ouvert dans Azure Data Studio ou suivre les étapes ci-dessous pour créer un notebook. Essayez ensuite d’utiliser des paramètres différents. Toutes les étapes s’exécutent à l’intérieur d’un notebook Azure Data Studio.
Vérifiez que Python 3 est sélectionné comme Noyau :
Créez une nouvelle cellule de code. Sélectionnez Paramètres pour étiqueter la cellule en tant que cellule de paramètre.
x = 2.0 y = 5.0
Ajoutez d’autres cellules pour tester différents paramètres :
addition = x + y multiply = x * y
print("Addition: " + str(addition)) print("Multiplication: " + str(multiply))
Une fois toutes les cellules exécutées, la sortie ressemble à l’exemple suivant :
Enregistrez le notebook dans un fichier Input.ipynb :
Exécuter un notebook Papermill
Vous pouvez exécuter Papermill de deux manières :
- Interface de ligne de commande (CLI)
- API Python
Exécution de l’interface CLI paramétrable
Pour exécuter un notebook à l’aide de l’interface CLI, entrez la commande papermill
dans le terminal avec le notebook d’entrée, l’emplacement du notebook de sortie et les options.
Notes
Pour plus d’informations, consultez la documentation sur l’interface CLI Papermill.
Exécutez le notebook d’entrée avec les nouveaux paramètres :
papermill Input.ipynb Output.ipynb -p x 10 -p y 20
Cette commande exécute le notebook d’entrée avec de nouvelles valeurs pour les paramètres x et y.
Une nouvelle cellule étiquetée
# Injected-Parameters
contient les nouvelles valeurs de paramètre qui ont été passées via l’interface CLI. Les nouvelles valeurs# Injected-Parameters
sont utilisées pour la nouvelle sortie qui est affichée dans la dernière cellule :
Exécution de l’API Python paramétrable
Notes
Pour plus d’informations, consultez la documentation sur Python Papermill.
Créer un nouveau bloc-notes. Remplacez la valeur de Noyau par Python 3 :
Ajoutez une cellule de code. Ensuite, utilisez l’API Python Papermill pour exécuter et générer le notebook de sortie paramétrisé :
import papermill as pm pm.execute_notebook( '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Input.ipynb', '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Output.ipynb', parameters = dict(x = 10, y = 20) )
Une nouvelle cellule étiquetée
# Injected-Parameters
contient les nouvelles valeurs de paramètre qui ont été passées. Les nouvelles valeurs# Injected-Parameters
sont utilisées pour la nouvelle sortie qui est affichée dans la dernière cellule :
Étapes suivantes
Découvrez-en plus sur les notebooks et le paramétrage :