Partilhar via


Use dbx para sincronizar arquivos locais com espaços de trabalho remotos em tempo real

Importante

Esta documentação foi desativada e pode não ser atualizada.

O Databricks recomenda que, em vez de , você use as versões 0.205 ou superiores da CLI do dbx syncDatabricks, que inclui funcionalidade semelhante à dbx sync do databricks sync comando.

A extensão Databricks para Visual Studio Code também inclui funcionalidade semelhante à dbx sync integrada no IDE de código do Visual Studio. Observe que dbx sync pode sincronizar alterações de arquivo de uma máquina de desenvolvimento local para DBFS, locais de espaço de trabalho e pastas Databricks Git em seus espaços de trabalho do Azure Databricks. A extensão Databricks para Visual Studio Code oferece suporte à sincronização de alterações de arquivos somente para arquivos de usuário (/Users) do espaço de trabalho e pastas Git Databricks (/Repos).

Nota

Este artigo é abordado dbx pelo Databricks Labs, que é fornecido no estado em que se encontra e não é suportado pelo Databricks através de canais de suporte técnico ao cliente. Perguntas e solicitações de recursos podem ser comunicadas através da página Problemas do repositório databrickslabs/dbx no GitHub.

Você pode executar a sincronização em tempo real de alterações em arquivos em sua máquina de desenvolvimento local com seus arquivos correspondentes em seus espaços de trabalho do Azure Databricks usando dbx by Databricks Labs. Esses arquivos de espaço de trabalho podem estar em DBFS ou em pastas Git Databricks.

A sincronização de arquivos em tempo real com dbx (também conhecida como dbx sync) é útil em cenários de desenvolvimento rápido de código. Por exemplo, você pode usar um ambiente de desenvolvimento integrado (IDE) local para recursos de produtividade, como realce de sintaxe, conclusão de código inteligente, revestimento de código e teste e depuração. Em seguida, você pode ir imediatamente para seu espaço de trabalho e executar seu código atualizado.

Você pode usar dbx sync sozinho, com trabalhos automatizados ou com um IDE.

dbx sync fluxos de trabalho de desenvolvimento

Há dois fluxos de trabalho de desenvolvimento para dbx synco , um com DBFS e outro com pastas Databricks Git.

O fluxo de trabalho de desenvolvimento típico com dbx sync e DBFS é:

  1. Identifique um diretório local que contenha os arquivos que você deseja sincronizar com o DBFS.
  2. Identifique o caminho no DBFS com o qual você deseja que seu diretório local sincronize (ou deixe dbx sync criar um caminho DBFS padrão para você).
  3. Execute dbx sync dbfs para sincronizar seu diretório local com o caminho DBFS. dbx sync começa a observar seu diretório local para quaisquer alterações de arquivo.
  4. Faça alterações nos arquivos em seu diretório local conforme necessário. dbx sync aplica essas alterações aos arquivos correspondentes no caminho DBFS em tempo real.

O fluxo de trabalho de desenvolvimento típico com dbx sync e pastas Databricks Git é:

  1. Crie um repositório com um provedor Git que as pastas do Databricks Git suportem, se você ainda não tiver um repositório disponível.
  2. Clone seu repositório em seu espaço de trabalho do Azure Databricks.
  3. Clone seu repositório em sua máquina de desenvolvimento local.
  4. Execute dbx sync repo para associar seu repositório clonado local ao repositório clonado do espaço de trabalho. dbx sync começa a observar seu diretório local para quaisquer alterações de arquivo.
  5. Faça alterações nos arquivos em seu repositório clonado local, conforme necessário. dbx sync aplica essas alterações aos arquivos correspondentes nas pastas Databricks Git em tempo real.
  6. Envie periodicamente arquivos atualizados do repositório clonado em seu espaço de trabalho para seu provedor Git, para que o repositório permaneça atualizado com seu provedor Git.

Importante

dbx sync Executa apenas a sincronização unidirecional e em tempo real de alterações de arquivos da máquina de desenvolvimento local para o espaço de trabalho remoto. Portanto, o Databricks não recomenda que você inicie alterações em seu espaço de trabalho do Azure Databricks em arquivos monitorados pelo dbx sync. Se você precisar fazer essas alterações de arquivo iniciadas pelo espaço de trabalho, também deverá fazer o seguinte:

  • Para alterações de arquivo no DBFS, faça as alterações correspondentes nos arquivos locais manualmente.
  • Para alterações de arquivo em pastas do Databricks Git, envie as alterações de arquivo do seu espaço de trabalho para o provedor do Git. Em seguida, em sua máquina de desenvolvimento local, extraia essas alterações de arquivo do seu provedor Git.

Requisitos

Se você quiser usar dbx sync com pastas Git do Databricks, seu espaço de trabalho do Azure Databricks deve atender ao seguinte requisito:

  • Um clone do seu repositório com seu provedor Git, embora não seja necessário, é sugerido.

Em sua máquina de desenvolvimento local, você deve ter o seguinte instalado:

  • Python versão 3.8 ou superior. Para verificar se o Python está instalado e verificar a versão do Python instalada, execute python --version no seu terminal ou PowerShell.

    python --version
    

    Nota

    Algumas instalações do python podem exigir que você use python3 em vez de python. Em caso afirmativo, substitua python por python3 ao longo deste artigo.

  • pip. Para verificar se pip está instalado e verificar a versão instalada pip , execute pip --version ou python -m pip --version.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Nota

    Algumas instalações do pip podem exigir que você use pip3 em vez de pip. Em caso afirmativo, substitua pip por pip3 ao longo deste artigo.

  • DBX versão 0.8.0 ou superior. Para verificar se dbx está instalado e verificar a versão instalada dbx , execute dbx --version. Para instalar dbx a partir do Python Package Index (PyPI), execute pip install dbx ou python -m pip install dbx. dbx (Inclui sincronização DBX.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Nota

    Para obter mais informações sobre dbxo , consulte dbx by Databricks Labs e a documentação do dbx.

  • A CLI do Databricks versão 0.18 ou inferior, configurada com autenticação. A CLI do Databricks herdada (Databricks CLI versão 0.17) é instalada automaticamente quando você instala o dbx. Essa autenticação pode ser configurada em sua máquina de desenvolvimento local em um ou ambos os seguintes locais:

    • Dentro das DATABRICKS_HOST variáveis e DATABRICKS_TOKEN de ambiente (começando com a CLI do Databricks herdada versão 0.8.0).
    • Em um perfil de configuração do Azure Databricks em seu .databrickscfg arquivo.

    dbx Procura credenciais de autenticação nesses dois locais, respectivamente. dbx usa apenas o primeiro conjunto de credenciais correspondentes que ele encontra.

    Nota

    Se você usar um .databrickscfg arquivo, dbx sync procurará nesse arquivo um perfil de configuração nomeado DEFAULT por padrão. Para especificar um perfil diferente, use a --profile opção ao executar o dbx sync comando, mais adiante neste artigo.

    dbx não suporta o uso de um arquivo .netrc para autenticação.

  • Se você quiser usar dbx sync com pastas Git Databricks, um clone local do seu repositório com seu provedor Git, embora não seja necessário, é sugerido. Para executar um clone local, consulte a documentação do seu provedor Git.

Use DBFS com dbx sync

  1. No terminal ou PowerShell em sua máquina de desenvolvimento local, mude para o diretório que contém os arquivos que você deseja sincronizar com o DBFS em seu espaço de trabalho do Azure Databricks.

  2. Execute o comando dbx sync para sincronizar seu diretório local com DBFS em seu espaço de trabalho, da seguinte maneira. (Não se esqueça do ponto (.) no final, que representa o seu diretório atual.)

    dbx sync dbfs --source .
    

    Gorjeta

    Para especificar um diretório de origem diferente, substitua o ponto (.) por um caminho diferente.

    Nota

    Se o erro Error: No such command 'sync' aparecer, é provável que a instalação do dbx esteja desatualizada. Para corrigir isso, execute pip install --upgrade dbx==<version> ou , onde <version> é a versão mais recente do dbxpython -m pip install --upgrade dbx==version. Este número de versão pode ser encontrado na página do PyPI para dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync começa a sincronizar arquivos em seu diretório local atual com arquivos no seguinte caminho DBFS em seu espaço de trabalho. dbx sync confirma isso imprimindo Target base path seguido do caminho DBFS, por exemplo:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Gorjeta

    Para especificar um nome de usuário ou caminho DBFS diferente, especifique as opções e --dest , respectivamente, ao executar dbx synco --user .

  4. Faça alterações em seus arquivos locais, conforme necessário.

    Importante

    Você deve manter seu terminal ou PowerShell aberto para dbx sync continuar a sincronização. Se você fechar o terminal ou o PowerShell, dbx sync interromperá a observação de alterações de arquivos e interromperá a sincronização. Para retomar a sincronização de alterações de ficheiros, repita este procedimento desde o início.

  5. Conforme necessário, verifique as alterações do arquivo no caminho anterior no DBFS em seu espaço de trabalho.

Use pastas Databricks Git com dbx sync

  1. No terminal ou PowerShell em sua máquina de desenvolvimento local, mude para o diretório raiz que contém o clone do repositório com seu provedor Git.

  2. Em seu espaço de trabalho do Azure Databricks, identifique o nome da pasta Databricks Git com a qual você deseja sincronizar seu repositório clonado local. Você pode encontrar esse nome de repositório clicando em pastas Git na barra lateral do seu espaço de trabalho.

  3. Em sua máquina de desenvolvimento local, execute o comando dbx sync para sincronizar seu repositório clonado local com as pastas Databricks Git em seu espaço de trabalho da seguinte maneira, substituindo <your-repo-name> pelo nome do seu repositório nas pastas Databricks Git. (Não se esqueça do ponto (.) no final, que representa o seu diretório atual.)

    dbx sync repo -d <your-repo-name> --source .
    

    Gorjeta

    Para especificar um diretório de origem diferente, substitua o ponto (.) por um caminho diferente.

    Nota

    Se o erro Error: No such command 'sync' aparecer, é provável que a instalação do dbx esteja desatualizada. Para corrigir isso, execute pip install --upgrade dbx==<version> ou , onde <version> é a versão mais recente do dbxpython -m pip install --upgrade dbx==version. Este número de versão pode ser encontrado na página do PyPI para dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync começa a sincronizar arquivos em seu repositório clonado local com arquivos em pastas Databricks Git em seu espaço de trabalho. dbx sync confirma isso imprimindo Target base path seguido pelo caminho das pastas Databricks Git, por exemplo:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Gorjeta

    Para especificar um nome de usuário ou repo diferente, especifique as opções e --dest-repo , respectivamente, quando executar dbx synco --user .

  5. Faça alterações em seus arquivos locais, conforme necessário.

    Importante

    Você deve manter seu terminal ou PowerShell aberto para dbx sync continuar a sincronização. Se você fechar o terminal ou o PowerShell, dbx sync interromperá a observação de alterações de arquivos e interromperá a sincronização. Para retomar a sincronização de alterações de ficheiros, repita este procedimento desde o início.

  6. Conforme necessário, verifique as alterações de arquivo nas pastas do Databricks Git em seu espaço de trabalho.

Recursos adicionais