¿Qué es la CLI de Databricks?

Artículo
04/04/2024

Nota:

Esta información se aplica a las versiones 0.205 y posteriores de la CLI de Databricks, que se encuentran en Versión preliminar pública. Para encontrar su versión de la CLI de Databricks, ejecute databricks -v.

La interfaz de la línea de comandos de Databricks (también conocida como CLI de Databricks) ofrece una herramienta para automatizar la plataforma de Azure Databricks desde su terminal, símbolo del sistema o scripts de automatización.

Información para usuarios de la CLI de Databricks heredada

Databricks no planea ningún trabajo de soporte o nuevas características para la CLI de Databricks heredada.
Para más información sobre la CLI de Databricks heredada, consulte CLI de Databricks (heredada).
Para migrar de la versión 0.18 o inferior a la versión 0.205 o superior de la CLI de Databricks, vea Migración de la CLI de Databricks.

¿Cómo funciona la CLI de Databricks?

La CLI encapsula la API de REST de Databricks, una interfaz de programación de aplicaciones (API) que usa una perspectiva de REST para automatizar los recursos y datos de la cuenta y el área de trabajo de Azure Databricks. Consulte la Referencia de la API de REST de Azure Databricks.

Por ejemplo, para imprimir información sobre un clúster individual en un área de trabajo, ejecute la CLI de la siguiente manera:

databricks clusters get 1234-567890-a12bcde3

Con curl, la operación equivalente es más larga de expresar y es más propensa a errores tipográficos, como se indica a continuación:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

Ejemplo: crear un trabajo de Azure Databricks

En el ejemplo siguiente se usa la CLI para crear un trabajo de Azure Databricks. Este trabajo contiene una sola tarea de trabajo. Esta tarea ejecuta el cuaderno de Azure Databricks especificado. Este cuaderno tiene una dependencia de una versión específica del paquete PyPI denominado wheel. Para ejecutar esta tarea, el trabajo crea temporalmente un clúster de trabajos que exporta una variable de entorno denominada PYSPARK_PYTHON. Una vez que se ejecuta el trabajo, se finaliza el clúster.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Pasos siguientes

Para obtener información sobre cómo instalar y empezar a usar la CLI, consulte el Tutorial de la CLI de Databricks.
Para omitir el tutorial e instalar la CLI, consulte Instalación o actualización de la CLI de Databricks.
Para configurar la autenticación entre la CLI y las cuentas y áreas de trabajo de Azure Databricks, consulte Autenticación para la CLI de Databricks.
Para usar perfiles de configuración para cambiar rápidamente entre grupos relacionados de configuración de la CLI, consulte Perfiles de configuración para la CLI de Databricks.
Para obtener información sobre el uso básico de la CLI, consulte Uso básico de la CLI de Databricks.
Para obtener ayuda sobre los comandos de la CLI, consulte Comandos de la CLI de Databricks.

¿Qué es la CLI de Databricks?

Información para usuarios de la CLI de Databricks heredada

¿Cómo funciona la CLI de Databricks?

Ejemplo: crear un trabajo de Azure Databricks

Pasos siguientes

Recursos adicionales