Use o clássico Jupyter Notebook com Databricks Connect para Python
Nota
Este artigo aborda o Databricks Connect for Databricks Runtime 13.3 LTS e superior.
Este artigo aborda como usar o Databricks Connect for Python com o Jupyter Notebook clássico. O Databricks Connect permite conectar servidores de notebook populares, IDEs e outros aplicativos personalizados a clusters do Azure Databricks. Consulte O que é Databricks Connect?.
Nota
Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.
Para usar o Databricks Connect com o Jupyter Notebook e Python clássicos, siga estas instruções.
Para instalar o Jupyter Notebook clássico, com seu ambiente virtual Python ativado, execute o seguinte comando no seu terminal ou prompt de comando:
pip3 install notebook
Para iniciar o Jupyter Notebook clássico em seu navegador da web, execute o seguinte comando em seu ambiente virtual Python ativado:
jupyter notebook
Se o Jupyter Notebook clássico não aparecer no seu navegador da Web, copie o URL que começa com
localhost
ou127.0.0.1
do seu ambiente virtual e insira-o na barra de endereço do seu navegador da Web.Crie um novo bloco de anotações: no Jupyter Notebook clássico, na guia Arquivos, clique em Novo > Python 3 (ipykernel).
Na primeira célula do bloco de notas, introduza o código de exemplo ou o seu próprio código. Se você usar seu próprio código, no mínimo você deve inicializar
DatabricksSession
como mostrado no código de exemplo.Para executar o bloco de anotações, clique em Célula > Executar Tudo. Todo o código Python é executado localmente, enquanto todo o código PySpark envolvendo operações DataFrame é executado no cluster no espaço de trabalho remoto do Azure Databricks e as respostas de execução são enviadas de volta ao chamador local.
Para depurar o bloco de notas, adicione a seguinte linha de código no início do seu bloco de notas:
from IPython.core.debugger import set_trace
E, em seguida, chame
set_trace()
para inserir instruções de depuração nesse ponto da execução do bloco de anotações. Todo o código Python é depurado localmente, enquanto todo o código PySpark continua a ser executado no cluster no espaço de trabalho remoto do Azure Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.Para encerrar o Jupyter Notebook clássico, clique em Fechar e Parar Arquivo>. Se o processo clássico do Jupyter Notebook ainda estiver em execução no seu terminal ou prompt de comando, pare esse processo pressionando
Ctrl + c
e entrandoy
para confirmar.