Databricks CLI란?

참고 항목

이 정보는 공개 미리 보기에 있는 Databricks CLI 버전 0.205 이상에 적용됩니다. Databricks CLI 버전을 찾으려면 다음을 실행 databricks -v합니다.

Databricks 명령줄 인터페이스(Databricks CLI라고도 함)는 터미널, 명령 프롬프트 또는 자동화 스크립트에서 Azure Databricks 플랫폼을 자동화하는 도구를 제공합니다.

레거시 Databricks CLI 사용자에 대한 정보

  • Databricks는 레거시 Databricks CLI에 대한 지원 또는 새로운 기능 작업을 계획하지 않습니다.
  • 레거시 Databricks CLI에 대한 자세한 내용은 Databricks CLI(레거시)를 참조하세요.
  • Databricks CLI 버전 0.18 이하에서 Databricks CLI 버전 0.205 이상으로 마이그레이션하려면 Databricks CLI 마이그레이션을 참조하세요.

Databricks CLI는 어떻게 작동하나요?

CLI는 REST 관점을 사용하여 Azure Databricks 계정 및 작업 영역 리소스 및 데이터를 자동화하는 API(애플리케이션 프로그래밍 인터페이스)인 Databricks REST API를 래핑합니다. Azure Databricks REST API 참조를 참조하세요.

예를 들어 작업 영역의 개별 클러스터에 대한 정보를 인쇄하려면 다음과 같이 CLI를 실행합니다.

databricks clusters get 1234-567890-a12bcde3

curl경우 해당하는 작업은 표현하기 더 길며 다음과 같이 오류를 입력하는 경향이 있습니다.

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

예: Azure Databricks 작업 만들기

다음 예제에서는 CLI를 사용하여 Azure Databricks 작업을 만듭니다. 이 작업에는 단일 작업 태스크가 포함됩니다. 이 작업은 지정된 Azure Databricks Notebook을 실행합니다. 이 Notebook에는 이름이 지정된 PyPI 패키지의 특정 버전에 대한 종속성이 있습니다 wheel. 이 작업을 실행하기 위해 작업은 임시로 명명 PYSPARK_PYTHON된 환경 변수를 내보내는 작업 클러스터를 만듭니다. 작업이 실행되면 클러스터가 종료됩니다.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

다음 단계