작업에서 Azure Databricks 컴퓨팅 사용

Azure Databricks 작업을 실행할 때 작업의 일부로 구성된 작업은 작업 유형에 따라 Azure Databricks 컴퓨팅, 서버리스 컴퓨팅, 클러스터 또는 SQL 웨어하우스에서 실행됩니다. 작업을 운영할 때 컴퓨팅 유형 및 구성 옵션을 선택하는 것이 중요합니다. 이 문서에서는 Azure Databricks 컴퓨팅 리소스를 사용하여 작업을 실행하기 위한 권장 사항을 제공합니다.

Azure Databricks 작업에서 서버리스 컴퓨팅을 사용하는 방법에 대한 자세한 내용은 워크플로에 대한 서버리스 컴퓨팅을 사용하여 Azure Databricks 작업 실행을 참조 하세요.

참고 항목

비밀 은 클러스터의 Spark 드라이버 로그 stdoutstderr 스트림에서 수정되지 않습니다. 중요한 데이터를 보호하기 위해 기본적으로 Spark 드라이버 로그는 작업, 단일 사용자 액세스 모드 및 공유 액세스 모드 클러스터에 대한 CAN MANAGE 권한이 있는 사용자만 볼 수 있습니다. CAN ATTACH TO 또는 CAN RESTART 권한이 있는 사용자가 이러한 클러스터의 로그를 볼 수 있도록 하려면 클러스터 구성 spark.databricks.acl.needAdminPermissionToViewLogs false에서 다음 Spark 구성 속성을 설정합니다.

격리 공유 액세스 모드 클러스터가 없는 경우 CAN ATTACH TO 또는 CAN MANAGE 권한이 있는 사용자가 Spark 드라이버 로그를 볼 수 있습니다. CAN MANAGE 권한이 있는 사용자만 로그를 읽을 수 있는 사용자를 제한하려면 다음으로 true설정합니다spark.databricks.acl.needAdminPermissionToViewLogs.

클러스터 구성에 Spark 속성을 추가하는 방법을 알아보려면 Spark 구성을 참조하세요.

공유 작업 클러스터 사용

여러 태스크를 오케스트레이션하는 작업을 통해 리소스 사용량을 최적화하려면 공유 작업 클러스터를 사용합니다. 공유 작업 클러스터를 사용하면 동일한 작업 실행의 여러 태스크에서 클러스터를 다시 사용할 수 있습니다. 단일 작업 클러스터를 사용하여 작업의 일부인 모든 태스크를 실행하거나, 특정 워크로드에 최적화된 여러 작업 클러스터를 실행할 수 있습니다. 공유 작업 클러스터를 사용하려면,

  1. 태스크를 만들고 클러스터 구성을 완료할 때 새 작업 클러스터를 선택합니다.
  2. 태스크를 작업에 추가할 때 새 클러스터를 선택하거나 새 작업 클러스터를 만듭니다. 새 작업 클러스터를 선택할 때 구성하는 모든 클러스터는 작업의 모든 태스크에서 사용할 수 있습니다.

공유 작업 클러스터는 단일 작업 실행으로 범위가 지정되며 동일한 작업의 다른 작업이나 실행에서 사용할 수 없습니다.

라이브러리는 공유 작업 클러스터 구성에서 선언할 수 없습니다. 태스크 설정에서 종속 라이브러리를 추가해야 합니다.

작업에 적합한 클러스터 유형 선택

  • 새 작업 클러스터는 작업 또는 태스크 실행을 위한 전용 클러스터입니다. 클러스터를 사용하는 마지막 태스크가 완료된 후에 클러스터를 사용하는 첫 번째 태스크가 시작되고 종료될 때 공유 작업 클러스터가 만들어지고 시작됩니다. 클러스터는 유휴 상태일 때 종료되지 않고 모든 작업이 완료된 후에만 종료됩니다. 공유 작업 클러스터가 실패하거나 모든 태스크가 완료되기 전에 종료되면 새 클러스터가 만들어집니다. 태스크가 시작될 때 범위가 단일 태스크로 지정된 클러스터가 만들어지고 시작되고, 태스크가 완료될 때 종료됩니다. 프로덕션 환경에서 Databricks는 각 작업 또는 태스크가 완전히 격리된 환경에서 실행되도록 새 공유 또는 작업 범위 클러스터를 사용하는 것이 좋습니다.
  • 새 클러스터에서 태스크를 실행하면 태스크가 태스크 워크로드 가격 책정에 따라 데이터 엔지니어링(태스크) 워크로드로 처리됩니다. 기존 다목적 클러스터에서 태스크를 실행하면 해당 태스크가 다목적 워크로드 가격 책정에 따라 데이터 분석(다목적) 워크로드로 처리됩니다.
  • 종료된 기존 클러스터를 선택하고 작업 소유자에게 CAN RESTART 권한이 있는 경우 작업이 실행되도록 예약되면 Azure Databricks가 클러스터를 시작합니다.
  • 기존 다목적 클러스터는 정기적인 대시보드 업데이트와 같은 태스크에 가장 적합합니다.

풀을 사용하여 클러스터 시작 시간 단축

새 작업 클러스터 시작 시간을 줄이려면 을 만들고, 풀을 사용하도록 작업의 클러스터를 구성합니다.