Was ist die Databricks-CLI?

Hinweis

Diese Informationen gelten für die Databricks-CLI-Version 0.205 und höher, die als Public Preview verfügbar sind. Führen Sie databricks -v aus, um die Version Ihrer Databricks CLI zu ermitteln.

Die Databricks-Befehlszeilenschnittstelle – auch als Databricks-CLI bezeichnet – ist ein Tool zum Automatisieren der Azure Databricks-Plattform über Ihr Terminal, Ihre Eingabeaufforderung oder über Automatisierungsskripts.

Informationen für Benutzer*innen der Legacy-Databricks-CLI

  • Aufseiten von Databricks ist derzeit kein neues Feature für die Legacy-Databricks-CLI geplant.
  • Weitere Informationen zur Legacy-Databricks-CLI finden Sie unter Databricks-CLI (Legacy).
  • Informationen zum Migrieren der Databricks CLI-Version 0.18 oder niedriger zur Databricks CLI-Version 0.205 oder höher finden Sie unter Databricks CLI-Migration.

Wie funktioniert die Databricks-CLI?

Die CLI umschließt die Databricks-REST-API, eine Anwendungsprogrammierschnittstelle (API), die eine REST-Perspektive verwendet, um Ressourcen und Daten von Azure Databricks-Konten- und Arbeitsbereichen zu automatisieren. Weitere Informationen finden Sie unter Referenz zur Azure Databricks-REST-API.

Wenn Sie beispielsweise Informationen zu einem einzelnen Cluster in einem Arbeitsbereich drucken möchten, führen Sie die CLI wie folgt aus:

databricks clusters get 1234-567890-a12bcde3

Hier sehen Sie, dass das Ausdrücken des entsprechenden Vorgangs mit curl länger und anfälliger für Eingabefehler ist:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

Beispiel: Erstellen eines Azure Databricks-Auftrags

Im folgenden Beispiel wird die CLI verwendet, um einen Azure Databricks-Auftrag zu erstellen. Dieser Auftrag enthält eine einzelne Aufgabe. Mit dieser Aufgabe wird das angegebene Azure Databricks-Notebook ausgeführt. Dieses Notebook verfügt über eine Abhängigkeit von einer bestimmten Version des PyPI-Pakets namens wheel. Zum Ausführen dieser Aufgabe erstellt der Auftrag vorübergehend einen Auftragscluster, der eine Umgebungsvariable namens PYSPARK_PYTHON exportiert. Nachdem der Auftrag ausgeführt wurde, wird der Cluster beendet.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Nächste Schritte