Databricks Connect para Python
Observação
Esse artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e superior.
Este artigo demonstra como começar a usar rapidamente o Databricks Connect por meio do Python e do PyCharm.
- Para obter a versão R deste artigo, consulte Databricks Connect para R.
- Para obter a versão do Scala deste artigo, confira Databricks Connect para Scala.
O Databricks Connect permite que você conecte IDEs populares, como o PyCharm, servidores de notebook e outros aplicativos personalizados aos clusters do Azure Databricks. Consulte O que é o Databricks Connect?.
Tutorial
Para ignorar este tutorial e usar um IDE diferente, confira Próximas etapas.
Requisitos
Para concluir este tutorial, você deve atender aos seguintes requisitos:
- O workspace do Azure Databricks de destino deve ter o Catálogo do Unity habilitado.
- Você tem o PyCharm instalado. Este tutorial foi testado com o PyCharm Community Edition 2023.3.5. Se você usar uma versão ou edição diferente do PyCharm, as instruções a seguir poderão variar.
- Sua computação atende aos requisitos de instalação do Databricks Connect para Python.
- Se você estiver usando a computação clássica, precisará da ID do cluster’. Para obter a ID do cluster, no espaço de trabalho, clique em Computação na barra lateral e clique no nome do cluster. Na barra de endereços do navegador da Web, copie a cadeia de caracteres entre
clusters
econfiguration
na URL.
Etapa 1: Configurar a autenticação do Azure Databricks
Este tutorial usa o de autenticação U2M (usuário para máquina) do OAuth e um perfil de configuração do Azure Databricks para autenticação no workspace do Azure Databricks. Para usar um tipo de autenticação diferente, consulte Configurar propriedades de conexão.
A configuração da autenticação OAuth U2M requer a CLI do Databricks. Para obter informações sobre a instalação da CLI do Databricks, confira Instalar ou atualizar a CLI do Databricks.
Inicie a autenticação OAuth U2M da seguinte forma:
Use a Databricks CLI para iniciar o gerenciamento de token OAuth localmente executando o comando a seguir para cada workspace de destino.
No comando a seguir, substitua
<workspace-url>
pela URL por workspace do Azure Databricks, por exemplo,https://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --configure-cluster --host <workspace-url>
Como alternativa, se você desejar usar a computação do Databricks Serverless com o DB Connect, siga as etapas apresentadas em Configurar uma conexão com a computação sem servidor.
A CLI do Databricks solicita que você salve as informações inseridas como um perfil de configuração do Azure Databricks. Pressione
Enter
para aceitar o nome de perfil sugerido ou digite o nome de um perfil novo ou existente. Qualquer perfil existente com o mesmo nome será substituído pelas informações inseridas. Você pode usar perfis para alternar rapidamente seu contexto de autenticação em vários workspaces.Para obter uma lista de quaisquer perfis existentes, em um terminal ou prompt de comando separado, use a CLI do Databricks para executar o comando
databricks auth profiles
. Para visualizar as configurações existentes de um perfil específico, execute o comandodatabricks auth env --profile <profile-name>
.No seu navegador web, complete as instruções no ecrã para iniciar sessão no seu espaço de trabalho Azure Databricks.
Na lista de clusters disponíveis que aparece no seu terminal ou prompt de comando, use as teclas de seta para cima e para baixo para selecionar o cluster alvo do Azure Databricks em seu espaço de trabalho e pressione
Enter
. Você também pode digitar qualquer parte do nome de exibição do cluster para filtrar a lista de clusters disponíveis.Para visualizar o valor atual do token OAuth de um perfil e o carimbo de data/hora de expiração do token, execute um dos seguintes comandos:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Se tiver vários perfis com o mesmo valor
--host
, poderá ter de especificar as opções--host
e-p
em conjunto para ajudar a CLI do Databricks a encontrar as informações de token OAuth correspondentes corretas.
Etapa 2: Crie o projeto
- Inicie o PyCharm.
- No menu principal, clique em Arquivo > Novo Projeto.
- Na caixa de diálogo Novo Projeto, clique em Python Puro.
- Em Localização, clique no ícone de pasta e conclua as instruções na tela para especificar o caminho para o novo projeto do Python.
- Deixe Criar um script de boas-vindas main.py selecionado.
- Para Tipo de interpretador, clique em Projeto venv.
- Expanda a Versão do Python e use o ícone de pasta ou a lista suspensa para especificar o caminho para o interpretador do Python dos requisitos anteriores.
- Clique em Criar.
Etapa 3: adiciona o pacote do Databricks para o Databricks Connect
- No menu main do PyCharm, clique em Exibir > Pacotes do Windows > Python da Ferramenta.
- Na caixa de pesquisa, insira
databricks-connect
. - Na lista repositório PyPI, clique em databricks-connect.
- Na lista suspensa mais recente do painel de resultados, selecione a versão que corresponde à versão do Databricks Runtime do cluster. Por exemplo, se o cluster tiver o Databricks Runtime 14.3 instalado, selecione 14.3.1.
- Clique em Instalar pacote.
- Após a instalação do pacote, você pode fechar a janela Pacotes do Python.
Etapa 4: adicionar o código
Na janela da ferramenta Projeto, clique com o botão direito do mouse na pasta raiz do projeto e clique em Novo >Arquivo Python.
Insira
main.py
e clique duas vezes em Arquivo Python.Insira o seguinte código no arquivo e, em seguida, salve o arquivo, dependendo do nome do seu perfil de configuração.
Se o perfil de configuração da Etapa 1 for chamado
DEFAULT
, insira o seguinte código no arquivo e, em seguida, salve o arquivo:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Se o perfil de configuração da Etapa 1 não for chamado
DEFAULT
, insira o seguinte código no arquivo. Substitua o espaço reservado<profile-name>
pelo nome do perfil de configuração da Etapa 1 e salve o arquivo:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Etapa 5: Executar o código
- Inicie o cluster de destino no workspace remoto do Azure Databricks.
- Após o cluster ter iniciado, no menu principal, clique em Executar > Executar 'principal'.
- Na janela de ferramentas Executar (Exibir > Janelas de Ferramentas > Executar), no painel principal da guia Executar, as cinco primeiras linhas do
samples.nyctaxi.trips
são exibidas.
Etapa 6: Depurar o código
- Com o cluster ainda em execução, no código anterior, clique na medianiz ao lado de
df.show(5)
para definir um ponto de interrupção. - No menu principal, clique em Executar > Depurar 'principal'.
- Na janela Ferramenta de Depuração (Exibir > Ferramenta de Depuração do Windows>), no painel Variáveis da guia Depurador, expanda os nós de variáveis df e spark para procurar informações sobre as variáveis e
df
dospark
código. - Na barra lateral da janela Ferramenta de Depuração, clique no ícone de seta verde (Retomar Programa).
- No painel Console da guia Depurador, as cinco primeiras linhas do
samples.nyctaxi.trips
aparecem.
Próximas etapas
Para saber mais sobre o Databricks Connect, confira artigos como os seguintes:
Para usar tipos de autenticação do Azure Databricks que não sejam um token de acesso pessoal do Azure Databricks, confira Configurar propriedades de conexão.
Para usar outros IDEs, servidores de notebooks e o shell do Spark, confira o seguinte:
Para exibir exemplos de código simples adicionais, confira Exemplos de código para o Databricks Connect para Python.
Para exibir exemplos de código mais complexos, confira os aplicativos de exemplo para o repositório do Databricks Connect no GitHub, especificamente:
Para usar os Utilitários do Databricks com o Databricks Connect, confira Utilitários do Databricks com o Databricks Connect para Python.
Para migrar do Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect para Databricks Runtime 13.3 LTS e superior, consulte Migrar para o Databricks Connect para Python.
Confira também informações sobre solução de problemas e limitações.