Partilhar via


Executar comandos de shell no terminal Web do Azure Databricks

O terminal Web do Azure Databricks fornece uma maneira conveniente e altamente interativa de executar comandos shell em uma interface de linha de comando (CLI), incluindo comandos da CLI do Databricks, para executar ações em objetos Databricks programaticamente. É especialmente útil para casos de uso avançados, como operações em lote em vários arquivos, que as interfaces de usuário (UIs) existentes podem não suportar totalmente.

Vários usuários podem usar o terminal da Web em um computador.

Você pode usar o terminal da Web para fazer o seguinte:

  • Faça edições rápidas de arquivos usando Vim ou Emacs.
  • Monitore o uso de recursos com comandos como htop (uso de cluster) ou nvidia-smi (uso de GPU).
  • Execute scripts Python que não sejam do Spark.
  • Execute operações de arquivo com comandos do shell, como mv e mkdir.
  • Instale e gerencie bibliotecas em computação.
  • Use a CLI do Databricks para automatizar vários aspetos do Azure Databricks.

Requisitos

Aviso

O Azure Databricks realiza o proxy do serviço de comando web a partir da porta 7681 no driver Spark da computação. Este proxy web destina-se a ser usado apenas com o terminal web. Se a porta estiver ocupada quando a computação for iniciada ou houver algum tipo de conflito, o terminal da Web pode não funcionar conforme o esperado. Se outros serviços Web forem iniciados na porta 7681, os usuários de computação poderão ser expostos a possíveis explorações de segurança. Nem a Databricks nem a Microsoft são responsáveis por quaisquer problemas resultantes da instalação de software não suportado em uma computação.

  • O terminal Web está desativado por padrão para todos os usuários do espaço de trabalho. Para habilitá-lo, consulte Habilitar o terminal da Web.
  • PODE ANEXAR A permissão numa computação.
  • O terminal web só é suportado com o modo de acesso padrão (anteriormente modo de acesso compartilhado) no Databricks Runtime 15.1 e superior.

Abrir o terminal web

Pode iniciar o terminal Web a partir da página de detalhes de computação ou de um bloco de notas.

A partir de um caderno

Para iniciar o terminal Web a partir de um bloco de notas:

  1. Conecte o notebook à computação.
  2. Na parte inferior da barra lateral direita do notebook, clique no ícone do terminal Ícone do terminal para iniciar o terminal web.
  3. Como alternativa, clique na lista suspensa de recursos anexados, mova o cursor sobre o recurso anexado e clique em Terminal Web.

O terminal web abre num painel na parte inferior do ecrã. Os botões no canto superior direito do painel permitem-lhe:

  • Novo ícone de janela. Abra uma nova sessão de terminal num novo separador.
  • Ícone de sincronização. Recarregue uma sessão de terminal.
  • Ícone Fechar. Feche o painel inferior. Para reabrir o painel, clique no ícone Terminal na parte inferior da barra lateral direita.

Na página de detalhes de computação

Para iniciar o terminal Web a partir da página de detalhes de computação:

  1. Na barra lateral do espaço de trabalho, clique em Computar.
  2. Na guia Computação versátil, clique sobre o nome da computação.
  3. Clique em Iniciar para iniciar a computação.
  4. Na guia Aplicativos, clique em Terminal Web.

Abre-se uma nova aba com a interface do terminal da Web e o prompt Bash.

Utilizar o terminal web

No terminal da Web, você pode executar comandos da raiz dentro do contêiner do nó do driver de computação.

Cada utilizador pode ter até 100 sessões de terminal web ativas (separadores) abertas. Sessões inativas do terminal web podem expirar, levando o app do terminal a reconectar-se, resultando em um novo processo de shell. Se você quiser manter sua sessão Bash, a Databricks recomenda o uso do tmux.

Executar comandos da CLI do Databricks

Você também pode usar o terminal da Web para executar comandos da CLI do Databricks. A CLI disponível é sempre a versão mais recente e a autenticação é baseada no usuário atual.

Observação

Os comandos de perfil de configuração não são suportados ao executar comandos da CLI no terminal da Web. Isso ocorre porque o terminal da Web usa variáveis de ambiente para autenticar na CLI, que precede os perfis de configuração na ordem de autenticação da avaliação.

O cálculo deve atender aos seguintes requisitos:

  • O cluster deve ter o Databricks Runtime 15.0 ou superior instalado.
  • O espaço de trabalho não deve estar habilitado para Link Privado.

Inicie o terminal da Web e execute o seguinte comando para produzir informações sobre o usuário atual:

   databricks current-user me

Comandos de pacote também estão disponíveis, o que permite que você crie e gerencie seus pacotes de ativos Databricks diretamente do terminal da Web dentro do espaço de trabalho Databricks. Por exemplo, para criar, implantar e executar um pacote simples usando o modelo padrão:

  1. A partir da raiz do terminal Web, navegue até a página inicial do seu espaço de trabalho e execute bundle init:

    cd /Workspace/Users/someone@example.com
    databricks bundle init
    
  2. Aceite as sugestões do modelo padrão, depois altere para o diretório de pacotes e realize a implementação.

    cd my_project
    databricks bundle deploy
    

    Você pode visualizar o pacote implantado my_project na interface de utilizador do espaço de trabalho Databricks.

  3. Finalmente, execute o trabalho padrão no pacote:

    databricks bundle run my_project_job
    

    Navegue até Job Runs para ver o trabalho em execução.

Configure o seu terminal web

Você pode definir configurações persistentes para seu terminal da Web usando arquivos de configuração .bashrc.

O Databricks origina automaticamente arquivos chamados .bashrc da pasta inicial do sistema de arquivos do espaço de trabalho. As configurações desses arquivos são ativadas automaticamente cada vez que você inicia uma nova sessão do terminal.

Se você quiser fornecer quaisquer outros arquivos (como .zshrc) para sua experiência de terminal da web, origine-os do seu arquivo .bashrc para manter a configuração.

Salve todos os arquivos de configuração em sua pasta de espaço de trabalho onde você pode configurá-los usando um editor de texto.

Limitações

  • O Azure Databricks não suporta a execução de trabalhos do Spark a partir do terminal Web.

  • O terminal Web do Azure Databricks não está disponível nos seguintes tipos de computação:

    • Computação de Tarefa
    • Execução iniciada com a variável de ambiente DISABLE_WEB_TERMINAL=true definida.
    • Os computadores foram lançados com o modo de acesso definido como Standard no Databricks Runtime abaixo de 15.1. O terminal web está disponível no ambiente de computação com modo de acesso standard (anteriormente modo de acesso partilhado) para Databricks Runtime 15.1 e superior.
    • Computação iniciada com o modo de acesso definido como Standard com recursos de computação ARM no Databricks Runtime abaixo de 16.4.
    • Ambiente de computação sem servidor versão 1.
    • A computação foi iniciada com a configuração spark.databricks.pyspark.enableProcessIsolation do Spark definida como true.
  • Há um limite rígido de 12 horas desde o carregamento inicial da página, após o qual qualquer conexão, mesmo que ativa, será encerrada. Você pode atualizar o terminal da Web para se reconectar. A Databricks recomenda o uso do tmux para preservar sua sessão de shell.

  • Os recursos de computação ARM no Databricks Runtime abaixo de 16.4 não podem usar terminais da Web para acessar arquivos de espaço de trabalho, incluindo arquivos em pastas Git.