¿Qué es la CLI de Databricks?

Nota:

Esta información se aplica a las versiones 0.205 y posteriores de la CLI de Databricks, que se encuentran en Versión preliminar pública. Para encontrar su versión de la CLI de Databricks, ejecute databricks -v.

La interfaz de la línea de comandos de Databricks (también conocida como CLI de Databricks) ofrece una herramienta para automatizar la plataforma de Azure Databricks desde su terminal, símbolo del sistema o scripts de automatización.

Información para usuarios de la CLI de Databricks heredada

  • Databricks no planea ningún trabajo de soporte o nuevas características para la CLI de Databricks heredada.
  • Para más información sobre la CLI de Databricks heredada, consulte CLI de Databricks (heredada).
  • Para migrar de la versión 0.18 o inferior a la versión 0.205 o superior de la CLI de Databricks, vea Migración de la CLI de Databricks.

¿Cómo funciona la CLI de Databricks?

La CLI encapsula la API de REST de Databricks, una interfaz de programación de aplicaciones (API) que usa una perspectiva de REST para automatizar los recursos y datos de la cuenta y el área de trabajo de Azure Databricks. Consulte la Referencia de la API de REST de Azure Databricks.

Por ejemplo, para imprimir información sobre un clúster individual en un área de trabajo, ejecute la CLI de la siguiente manera:

databricks clusters get 1234-567890-a12bcde3

Con curl, la operación equivalente es más larga de expresar y es más propensa a errores tipográficos, como se indica a continuación:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

Ejemplo: crear un trabajo de Azure Databricks

En el ejemplo siguiente se usa la CLI para crear un trabajo de Azure Databricks. Este trabajo contiene una sola tarea de trabajo. Esta tarea ejecuta el cuaderno de Azure Databricks especificado. Este cuaderno tiene una dependencia de una versión específica del paquete PyPI denominado wheel. Para ejecutar esta tarea, el trabajo crea temporalmente un clúster de trabajos que exporta una variable de entorno denominada PYSPARK_PYTHON. Una vez que se ejecuta el trabajo, se finaliza el clúster.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Pasos siguientes