Criar um notebook parametrizado usando o Papermill
A parametrização no Azure Data Studio está executando o mesmo notebook com um conjunto diferente de parâmetros.
Este artigo mostra como criar e executar um notebook parametrizado no Azure Data Studio usando o kernel do Python.
Observação
Atualmente, você pode usar a parametrização com o Python, o PySpark, o PowerShell e os kernels interativos do .NET.
Pré-requisitos
Instalar e configurar o Papermill no Azure Data Studio
Todas as etapas nesta seção são executadas dentro de um notebook do Azure Data Studio.
Crie um novo bloco de anotações. Altere Kernel para Python 3:
Se for solicitado que você atualize os pacotes do Python quando os seus pacotes precisarem ser atualizados, selecione Sim:
Instalar o Papermill:
import sys !{sys.executable} -m pip install papermill --no-cache-dir --upgrade
Verifique se o Papermill está instalado:
import sys !{sys.executable} -m pip list
Para verificar se o Papermill foi instalado corretamente, verifique a versão do Papermill:
import papermill papermill
Exemplo de parametrização
Você pode usar um arquivo de notebook de exemplo para percorrer as etapas neste artigo:
- Acesse o arquivo do notebook no GitHub. Selecione a opção Bruto.
- Selecione Ctrl + S ou clique com o botão direito do mouse e salve o arquivo com a extensão .ipynb.
- Abra o arquivo no Azure Data Studio.
Configurar um notebook com parâmetros
Você pode começar com o notebook de exemplo aberto no Azure Data Studio ou concluir as etapas a seguir para criar um notebook. Em seguida, tente usar parâmetros diferentes. Todas as etapas são executadas dentro de um notebook do Azure Data Studio.
Verifique se o Kernel está definido como Python 3:
Crie uma célula de código. Selecione Parâmetros para marcar a célula como uma célula de parâmetros.
x = 2.0 y = 5.0
Adicione outras células para testar parâmetros diferentes:
addition = x + y multiply = x * y
print("Addition: " + str(addition)) print("Multiplication: " + str(multiply))
Depois que todas as células forem executadas, a saída será semelhante a este exemplo:
Salve o notebook como Input.ipynb:
Executar um notebook do Papermill
Você pode executar o Papermill de duas maneiras:
- CLI (interface de linha de comando)
- API de Python
Execução de CLI com parâmetros
Para executar um notebook usando a CLI, no terminal, insira o comando papermill
com o notebook de entrada, a localização do notebook de saída e as opções.
Observação
Para saber mais, confira a Documentação da CLI do Papermill.
Execute o notebook de entrada com novos parâmetros:
papermill Input.ipynb Output.ipynb -p x 10 -p y 20
Esse comando executa o notebook de entrada com novos valores para os parâmetros x e y.
Uma nova célula rotulada como
# Injected-Parameters
contém os novos valores de parâmetro que foram passados por meio da CLI. Os novos valores de# Injected-Parameters
são usados para a nova saída mostrada na última célula:
Execução de API do Python com parâmetros
Observação
Para saber mais, confira a Documentação do Papermill para Python.
Crie um novo bloco de anotações. Altere Kernel para Python 3:
Adicione uma nova célula de código. Em seguida, use a API do Papermill para Python para executar e gerar o notebook parametrizado de saída:
import papermill as pm pm.execute_notebook( '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Input.ipynb', '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Output.ipynb', parameters = dict(x = 10, y = 20) )
Uma nova célula rotulada como
# Injected-Parameters
contém os novos valores de parâmetro que foram passados. Os novos valores de# Injected-Parameters
são usados para a nova saída mostrada na última célula:
Próximas etapas
Saiba mais sobre notebooks e parametrização: