O que é a CLI do Databricks?

Artigo
07/17/2024

Observação

Essas informações se aplicam às versões da CLI do Databricks 0.205 e superiores, que estão em Versão Prévia Pública. Para localizar sua versão da CLI do Databricks, execute databricks -v.

A interface de linha de comando do Databricks (também conhecida como CLI do Databricks) fornece uma ferramenta para automatizar a plataforma do Azure Databricks de seus scripts de terminal, prompt de comando ou automação. Você também pode executar comandos da CLI do Databricks de dentro de um workspace do Databricks usando o terminal da Web. Confira Executar comandos shell no terminal web do Azure Databricks.

Informações para usuários herdados da CLI do Databricks

O Databricks não planeja que haja suporte ou novos recursos para a CLI herdada do Databricks.
Para obter mais informações sobre a CLI herdada do Databricks, confira CLI do Databricks (herdada).
Para migrar da CLI do Databricks versão 0.18 ou inferior para a CLI do Databricks versão 0.205 ou superior, consulte migração da CLI do Databricks.

Como funciona a CLI do Databricks?

A CLI encapsula a API REST do Databricks, que fornece pontos de extremidade para modificar ou solicitar informações sobre objetos de conta e workspace do Azure Databricks. Confira a referência da API REST do Azure Databricks.

Por exemplo, para imprimir informações sobre um cluster individual em um workspace, execute a CLI da seguinte maneira:

databricks clusters get 1234-567890-a12bcde3

Com curl, a operação equivalente é a seguinte:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

Exemplo: criar um trabalho do Azure Databricks

O exemplo a seguir usa a CLI para criar um trabalho do Azure Databricks. Este trabalho contém uma única tarefa de trabalho. Essa tarefa executa o notebook do Azure Databricks especificado. Este notebook tem uma dependência em uma versão específica do pacote PyPI chamado wheel. Para executar essa tarefa, o trabalho cria temporariamente um cluster de trabalho que exporta uma variável de ambiente chamada PYSPARK_PYTHON. Depois que o trabalho for executado, o cluster será encerrado.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Próximas etapas

Para saber como instalar e começar a usar a CLI, confira Tutorial da CLI do Databricks.
Para ignorar o tutorial e apenas instalar a CLI, confira Instalar ou atualizar a CLI do Databricks.
Para configurar a autenticação entre a CLI e suas contas e workspaces do Azure Databricks, confira Autenticação para a CLI do Databricks.
Para usar perfis de configuração para alternar rapidamente entre grupos relacionados de configurações da CLI, confira Perfis de configuração da CLI do Databricks.
Para saber mais sobre o uso básico da CLI, confira Uso básico da CLI do Databricks.
Para obter ajuda para comandos da CLI, confira Comandos da CLI do Databricks.

Compartilhar via