Databricks 작업 구성 및 편집
이 문서에서는 워크플로 작업 영역 UI를 사용하여 작업을 만들고, 구성하고, 편집하는 방법을 중점적으로 설명합니다. Azure Databricks에는 다음과 같은 구성을 위한 진입점 및 도구가 있습니다.
- Databricks CLI를 사용하여 작업을 만들고 실행하는 방법에 대한 자세한 내용은 Databricks CLI란?을 참조하세요.
- 작업 API를 사용하여 작업을 만들고 실행하는 방법에 대한 자세한 내용은 REST API 참조의 작업을 참조하세요.
- Databricks Notebook에서 직접 작업을 실행하고 예약하는 방법을 알아보려면 예약된 Notebook 작업 만들기 및 관리를 참조하세요.
팁
작업을 YAML로 보려면 작업에 대해 지금 실행 왼쪽의 케밥 메뉴를 클릭한 다음 코드 버전으로 전환(YAML)을 클릭합니다.
새 작업 만들기
이 섹션에서는 작업 영역 UI를 사용하여 새 작업을 만들어 Notebook 태스크를 예약하기 위해 필요한 최소한의 구성을 설명합니다.
작업이 태스크가 하나 이상 포함합니다. 해당 작업에 대한 첫 번째 작업을 구성하여 새 작업을 만듭니다.
참고 항목
각 작업 유형의 동적 구성 옵션이 작업 영역 UI에 있습니다. Databricks 태스크 구성 및 편집을 참조하세요.
- 사이드바에서 워크플로를 클릭하고 를 클릭합니다.
- 태스크 이름을 입력합니다.
- 경로 필드에서 Notebook을 선택합니다.
- 작업 만들기를 클릭합니다.
작업 영역에서 작업이 서버리스 컴퓨팅을 사용하도록 설정되지 않은 경우, 컴퓨팅 옵션을 선택해야 합니다. Databricks는 작업을 구성할 때 항상 작업 컴퓨팅을 사용하는 것을 권장합니다.
작업 영역 작업 목록에 새 작업이 기본 이름 New Job <date> <time>
로 나타납니다.
작업 영역에서 편집할 작업 선택
다음과 같이 작업 영역 UI를 사용하여 기존 작업을 편집합니다.
- 사이드바에서 워크플로를 클릭합니다.
- 이름 열에서 작업 이름을 클릭합니다.
작업 UI를 사용하여 다음을 수행합니다.
- 작업 설정 편집
- 작업 이름 변경, 복제, 삭제
- 기존 작업에 새 태스크 추가
- 테스트 설정 편집
작업 설정 편집
측면 패널에 작업 세부 정보가 표시됩니다. 작업 트리거, 컴퓨팅 구성, 알림, 최대 동시 실행 수에 대한 트리거를 변경하고, 실행 시간 임계값을 구성하고, 태그를 추가하거나 변경할 수 있습니다. 작업 액세스 제어가 사용하도록 설정된 경우 작업 권한을 편집할 수도 있습니다.
모든 작업 태스크에 대한 매개 변수 추가
키워드 인수를 허용하도록 구성된 Python 휠 파일을 포함하여 키-값 매개 변수를 허용하는 작업의 태스크에 작업 수준에서 구성된 매개 변수가 전달됩니다. 매개 변수화 작업을 참조하세요.
작업에 태그 추가
작업에 레이블 또는 키-값 특성을 추가하려면 작업을 편집할 때 태그를 추가하면 됩니다. 작업 목록에서 태그를 사용하여 작업을 필터링할 수 있습니다. 예를 들어, department
태그를 사용하여 특정 부서의 작업을 필터링할 수 있습니다.
참고 항목
작업 태그는 개인 식별 정보 또는 암호와 같은 중요한 정보를 저장하도록 설계되지 않았기 때문에 Databricks는 중요하지 않은 값에만 태그를 사용하는 것이 좋습니다.
또한 태그는 작업을 실행할 때 생성된 작업 클러스터에 전파되므로 기존 클러스터 모니터링에서 태그를 사용할 수 있습니다.
태그를 추가하거나 편집하려면 작업 세부 정보 가로 패널에서 + 태그를 클릭합니다. 태그를 레이블 또는 키-값 페어로 추가할 수 있습니다. 레이블을 추가하려면 키 필드에 레이블을 입력하고 값 필드를 비워 둡니다.
작업 이름 변경, 복제, 삭제
작업의 이름을 바꾸려면, 작업 UI로 이동하여 작업 이름을 클릭합니다.
기존 작업을 복제하여 새 작업을 빠르게 만들 수 있습니다. 작업을 복제하면 작업 ID를 제외하고 동일한 작업 복사본이 만들어집니다. 작업을 복제하려면 다음을 수행합니다.
- 작업의 작업 UI로 이동합니다.
- 지금 실행 버튼 옆에 있는 을 클릭합니다.
- 드롭다운 메뉴에서 작업 복제를 선택합니다.
- 복제된 작업의 이름을 입력합니다.
- 복제를 클릭합니다.
작업 삭제
작업을 삭제하려면, 작업 페이지로 이동하여 작업 이름 옆에 있는 을 클릭하고, 드롭다운 메뉴에서 작업 삭제를 선택합니다.
작업과 함께 Git 사용
작업에 원격 Git 공급자 사용을 지원하는 태스크가 포함된 경우, 작업 UI에는 Git 필드와 Git 설정을 추가하거나 편집하는 옵션이 포함됩니다.
원격 Git 리포지토리를 사용하도록 다음 작업 유형을 구성할 수 있습니다.
- Notebooks
- Python 스크립트
- SQL 파일
- dbt
작업의 모든 태스크는 원격 리포지토리에서 동일한 커밋을 참조해야 합니다. 원격 리포지토리 사용하는 작업에 대해서는 다음 중 하나만 지정해야 합니다.
- branch: 분기의 이름, 예를 들면
main
. - tag: 태그의 이름, 예를 들면
release-1.0.0
. - commit: 특정 커밋의 해시, 예를 들면
e0056d01
작업 실행이 시작되면 Databricks는 원격 리포지토리의 커밋을 스냅샷하여 전체 작업이 동일한 버전의 코드를 실행하도록 합니다.
원격 Git 리포지토리에 저장된 코드를 실행하는 작업의 실행 기록을 볼 때 태스크 실행 세부 정보 패널에는 실행과 연결된 커밋 SHA를 비롯한 Git 세부 정보가 포함됩니다. 태스크 실행 기록 보기를 참조하세요.
참고 항목
원격 Git 리포지토리를 사용하도록 구성된 태스크는 작업 영역 파일에 쓰기 작업을 할 수 없습니다. 임시 데이터는 임시 드라이버 스토리지에 쓰고 영구 데이터는 볼륨 또는 테이블에 기록해야 합니다.
Databricks는 Git 폴더에서 작업 영역 경로를 참조하는 작업은 개발 중에 빠른 반복 및 테스트를 위해서만 만드는 것을 권장합니다. Databricks는 스테이징 및 프로덕션으로 이동할 때, 원격 Git 리포지토리를 참조하도록 작업을 다시 구성하는 것을 권장합니다. Databricks 작업의 버전 제어 소스 코드에 대해 자세히 알아봅니다.
Git 공급자 구성
작업 UI에 원격 Git 리포지토리를 구성하는 대화 상자가 있습니다. 이 대화 상자는 Git 제목 아래의 작업 세부 정보 패널 또는Git 공급자를 사용하도록 구성된 태스크에서 액세스할 수 있습니다.
대화 상자에 액세스하기 위해 표시되는 옵션은 작업 유형과 작업에 구성된 git 참조 여부에 따라 달라집니다. 대화 상자를 시작하는 버튼에는 Git 설정 추가, 편집, Git 참조 추가가 포함됩니다.
Git 정보 대화 상자(작업 세부 정보 패널에서 액세스할 수 있다면 Git 레이블만 있음)에서 다음을 입력합니다.
- Git 리포지토리 URL
- 드롭다운 목록에서 Git 공급자를 선택합니다.
- Git 참조 필드에서 실행하려는 소스 코드 버전에 해당하는 분기, 태그, 커밋의 식별자를 입력합니다.
- 드롭다운에서 분기, 태크, 커밋을 선택합니다.
참고 항목
대화 상자에 다음 메시지가 표시될 수 있습니다. 이 계정에 대한 Git 자격 증명이 없습니다. 자격 증명을 추가하세요. 원격 Git 리포지토리를 참조로 사용하기 전에 구성해야 합니다. Databricks Git 폴더(Repos) 설정을 참조하세요.
예상 완료 시간 또는 작업에 대한 시간 제한 구성
예상 완료 시간 및 최대 완료 시간을 포함 작업 시간 임계값을 선택적으로 구성할 수 있습니다. 시간 임계값을 구성하려면, 작업 세부 정보 패널의 시간 임계값에서 시간 임계값 설정을 클릭합니다.
태스크의 예상 완료 시간을 구성하려면 경고 필드에 시간을 입력합니다. 작업이 임계값을 초과하면 이벤트가 트리거됩니다. 이 이벤트를 사용하여 작업이 느리게 실행되는 경우 알릴 수 있습니다. 느리게 실행되거나 지연된 작업에 대한 알림 구성을 참조하세요.
작업에 대한 최대 완료 시간을 구성하려면 제한 시간 필드에 최대 기간을 입력합니다. 작업이 이 시간 내에 완료되지 않으면 Azure Databricks에서 상태를 "시간 초과"로 설정합니다.
필요에 따라 태스크의 시간 임계값을 지정할 수 있습니다. 예상 완료 시간 또는 태스크에 대한 시간 제한 구성을 참조하세요.