새 파일이 도착하면 작업 트리거하기

새 파일이 Amazon S3, Azure Storage 또는 Google Cloud Storage와 같은 외부 위치에 도착하면 파일 도착 트리거사용하여 Azure Databricks 작업 실행을 트리거할 수 있습니다. 새 데이터가 불규칙한 일정에 따라 도착했기 때문에 예약된 작업이 비효율적일 수 있을 때 이 기능을 사용할 수 있습니다.

파일 도착 트리거는 기본 클라우드 스토리지의 성능에 영향을 받을 수 있지만 1분마다 새 파일을 검사 위해 최선을 다합니다. 파일 도착 트리거는 스토리지 위치에 파일을 나열하는 것과 관련된 클라우드 공급자 비용 이외의 추가 비용이 발생하지 않습니다.

Unity 카탈로그 외부 위치 또는 볼륨의 루트 또는 외부 위치 또는 볼륨의 하위 경로를 모니터링하도록 파일 도착 트리거를 구성할 수 있습니다. 예를 들어 Unity 카탈로그 루트 볼륨 /Volumes/mycatalog/myschema/myvolume/의 경우 파일 도착 트리거에 대한 유효한 경로는 다음과 같습니다.

/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/

요구 사항

파일 도착 트리거를 사용하려면 다음이 필요합니다.

  • 작업 영역에 Unity 카탈로그가 활성화되어 있어야 합니다.
  • Unity 카탈로그 볼륨 또는 Unity 카탈로그 메타스토어에 추가된 외부 위치인 스토리지 위치를 사용해야 합니다. 클라우드 스토리지를 Azure Databricks에 연결하는 외부 위치 만들기를 참조 하세요.
  • 스토리지 위치에 대한 권한이 있어야 READ 하고 작업에 대한 권한을 관리할 수 있어야 합니다. 작업 권한에 대한 자세한 내용은 작업 ACL을 참조 하세요.

제한 사항

  • Azure Databricks 작업 영역에서 파일 도착 트리거를 사용하여 최대 50개의 작업을 구성할 수 있습니다.
  • 파일 도착 트리거에 대해 구성된 스토리지 위치는 최대 10,000개의 파일만 포함할 수 있습니다. 파일이 더 많은 위치는 새 파일 도착을 모니터링할 수 없습니다. 구성된 스토리지 위치가 Unity 카탈로그 외부 위치 또는 볼륨의 하위 경로인 경우 스토리지 위치의 루트가 아닌 하위 경로에 10,000개의 파일 제한이 적용됩니다. 예를 들어 스토리지 위치의 루트는 하위 디렉터리에 10,000개 이상의 파일을 포함할 수 있지만 구성된 하위 디렉터리가 10,000개의 파일 제한을 초과하면 안됩니다.
  • 파일 도착 트리거에서 사용하는 경로에는 외부 테이블 또는 카탈로그 및 스키마의 관리 위치를 포함해서는 안 됩니다.

파일 도착 트리거 추가

작업에 파일 도착 트리거를 추가하려면 다음을 수행합니다.

  1. 사이드바에서 워크플로를 클릭합니다.
  2. 작업 탭의 이름 열에서 작업 이름을 클릭합니다.
  3. 오른쪽의 작업 세부 정보 패널에서 트리거 추가를 클릭합니다.
  4. 트리거 유형에서 파일 도착을 선택합니다.
  5. 스토리지 위치에 Unity 카탈로그 외부 위치의 루트 또는 하위 경로 URL 또는 모니터링할 Unity 카탈로그 볼륨의 루트 또는 하위 경로를 입력합니다.
  6. (선택 사항) 고급 옵션 구성:
    • 트리거 사이의 최소 시간(초): 이전 실행이 완료된 후 실행을 트리거하기 위해 대기하는 최소 시간입니다. 이 기간에 도착하는 파일은 대기 시간이 만료된 후에만 실행을 트리거합니다. 이 설정을 사용하여 실행 생성 빈도를 제어합니다.
    • 마지막 변경 후 대기(초): 파일 도착 후 실행을 트리거하기 위해 대기하는 시간입니다. 이 기간에 또 다른 파일이 도착하면 타이머가 다시 설정됩니다. 이 설정은 파일이 일괄 처리로 도착할 때 사용할 수 있으며 모든 파일이 도착한 후 전체 일괄 처리를 처리해야 합니다.
  7. 구성의 유효성을 검사하려면 연결 테스트를 클릭합니다.
  8. 저장을 클릭합니다.

실패한 파일 도착 트리거에 대한 알림 받기

파일 도착 트리거가 실패하는 경우 평가를 위해 알림을 받으려면 작업 실패 시 알림을 받을 이메일 또는 시스템 대상을 구성하세요. 작업 이벤트에 대한 이메일 및 시스템 알림 추가를 참조하세요.