Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Note
Essas informações se aplicam às versões 0.205 e superiores da CLI do Databricks. A CLI do Databricks está em Visualização Pública.
O uso da CLI do Databricks está sujeito à Licença do Databricks e ao Aviso de Privacidade do Databricks, incluindo quaisquer provisionamentos de Dados de Uso.
O grupo de comandos sync dentro da CLI do Databricks permite uma sincronização unidirecional das alterações de código e arquivos locais de um diretório em sua máquina de desenvolvimento local para uma pasta em seu workspace remoto do Azure Databricks.
Note
-
syncnão pode sincronizar alterações de arquivo de uma pasta em um workspace remoto do Azure Databricks de volta para um diretório em seu computador de desenvolvimento local. -
syncpode sincronizar alterações de arquivos de uma máquina de desenvolvimento local apenas para arquivos de usuário do workspace (/Users) no seu workspace do Azure Databricks. Ele não pode sincronizar com arquivos DBFS (dbfs:/). Para sincronizar alterações de arquivo de um computador de desenvolvimento local para DBFS (dbfs:/) em seu workspace do Azure Databricks, use o utilitário dbx sync.
DataBricks Sync
Sincronizar um diretório local com um diretório de workspace.
databricks sync [flags] SRC DST
Arguments
SRC
O caminho do diretório de origem
DST
O caminho do diretório de destino
Opções
--dry-run
Simular a execução da sincronização sem fazer alterações reais
--exclude strings
Padrões a serem excluídos da sincronização (podem ser especificados várias vezes)
--exclude-from string
Arquivo que contém padrões a serem excluídos da sincronização (um padrão por linha)
--full
Executar sincronização completa (o padrão é incremental)
--include strings
Padrões a serem incluídos na sincronização (podem ser especificados várias vezes)
--include-from string
Arquivo que contém padrões a serem incluídos para sincronização (um padrão por linha)
--interval duration
Intervalo de sondagem do sistema de arquivos (para --watch) (padrão 1s)
--watch
Monitorar o sistema de arquivos local para mudanças
Examples
As seções a seguir mostram como usar o sync comando.
Sincronizar incrementalmente as alterações de arquivo local em um diretório remoto
Para executar uma sincronização unidirecional e única de alterações de arquivo em um diretório local para uma pasta em um workspace remoto do Azure Databricks, execute o sync comando da seguinte maneira:
databricks sync <local-directory-path> <remote-directory-path>
Por exemplo, para fazer uma sincronização incremental unidirecional e única de todas as alterações de arquivo na pasta nomeada my-local-folder no diretório de trabalho atual local, para a pasta my-workspace-folder no workspace remoto, execute o seguinte comando:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder
Neste exemplo, somente as alterações de arquivo desde a última execução do sync comando são sincronizadas com /Users/someone@example.com/my-workspace-folder. Por padrão, o URL do workspace no perfil do DEFAULT chamador é usada para determinar o workspace remoto ao qual sincronizar.
Sincronizar apenas arquivos específicos
Para incluir ou excluir arquivos específicos a serem sincronizados com base nos padrões especificados, use as opções --include, --include-from, --exclude ou --exclude-from.
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --exclude-from .gitignore
Note
Se quiser sincronizar arquivos de um pacote, use o mapeamento de configuração sync. Consulte sincronização.
O exemplo a seguir exclui determinados padrões de arquivo da sincronização:
databricks sync --exclude "*.pyc" --exclude "__pycache__" ./my-local-folder /Users/someone@example.com/my-workspace-folder
Sincronizar totalmente as alterações de arquivo local em um diretório remoto
Para executar uma sincronização única, completa e unidirecional de alterações de arquivo em um diretório local para uma pasta em um workspace remoto do Azure Databricks, independentemente de quando o último sync comando foi executado, use a opção --full , por exemplo:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --full
Sincronizar continuamente as alterações de arquivo local em um diretório remoto
Para ativar a sincronização unidirecional contínua de alterações de arquivo em um diretório local, para uma pasta em um workspace remoto do Azure Databricks, use a opção --watch , por exemplo:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --watch
A sincronização unidirecional continua até que o comando seja interrompido do terminal, normalmente pressionando Ctrl + c ou Ctrl + z.
A sondagem de possíveis eventos de sincronização ocorre uma vez por segundo por padrão. Para alterar esse intervalo, use a opção --interval juntamente com o número de segundos para sondar seguido pelo caractere s, por exemplo, por cinco segundos:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --watch --interval 5s
Alterar o formato de saída de progresso da sincronização
As informações de progresso da sincronização são a saída para o terminal no formato de texto por padrão. Para especificar o formato de saída de progresso da sincronização, use a opção --output especificando text (o padrão, se --output não for especificado de outra forma) ou json, por exemplo:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --output json
Pré-visualizar operações de arquivo durante a sincronização
Para visualizar uma sincronização sem realmente executar as operações de sincronização de arquivos, use a opção --dry-run , por exemplo:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --dry-run
Warn: Running in dry-run mode. No actual changes will be made.
Action: PUT: test.txt
Uploaded test.txt
Initial Sync Complete
Sinalizadores globais
--debug
Indica se deve habilitar o registro em log de depuração.
-h ou --help
Exiba ajuda para a CLI do Databricks ou o grupo de comandos relacionado ou o comando relacionado.
--log-file corda
Uma cadeia de caracteres que representa o arquivo para o qual gravar logs de saída. Se esse sinalizador não for especificado, o padrão será gravar logs de saída no stderr.
--log-format formato
O tipo de formato de log, text ou json. O valor padrão é text.
--log-level corda
Uma cadeia de caracteres que representa o nível de formato de log. Se não for especificado, o nível de formato de log será desabilitado.
-o, --output tipo
O tipo de saída de comando, text ou json. O valor padrão é text.
-p, --profile corda
O nome do perfil no arquivo ~/.databrickscfg para usar ao executar o comando. Se esse sinalizador não for especificado, se existir, o perfil nomeado DEFAULT será usado.
--progress-format formato
O formato para exibir logs de progresso: default, append, inplace ou json
-t, --target corda
Se aplicável, o destino do pacote a ser usado