Lakeflow 작업을 사용하여 워크로드 배포
Azure Databricks에서 Lakeflow 작업을 설정하는 작업은 일련의 디자인 및 구성 단계를 따릅니다.
1. 워크플로 목표 정의
첫째, 작업이 수행해야 하는 작업을 명확히 합니다. 즉, 자동화하려는 비즈니스 논리 또는 데이터 프로세스를 식별합니다. 새 데이터 수집, 데이터 변환, 모델 학습, 보고서 생성 또는 다운스트림 시스템에 결과 게시.
2. 워크플로를 작업으로 나누기
다음으로, 해당 워크플로를 작업으로 분해합니다. 작업은 Notebook 실행, Python 스크립트 실행, Delta Live Table 파이프라인 실행 또는 SQL 웨어하우스 쿼리와 같은 단일 작업 단위입니다. 이 단계에서는 작업이 순서대로 실행되는지, 병렬로 실행하든, 조건부로만 실행되는지와 관계없이 작업이 서로 어떻게 의존하는지 결정합니다.
3. 트리거 선택
작업을 실행할 시기와 방법을 결정합니다. 시간 기반 일정, 새 데이터 방문에 응답하는 파일 도착 트리거, Always-On 실행을 위한 연속 트리거 또는 API 호출 또는 업스트림 시스템에서 제어되는 수동/외부 트리거를 선택할 수 있습니다. 선택은 데이터 도착 패턴 및 비즈니스 요구 사항에 따라 달라집니다.
4. 컴퓨팅 리소스 구성
각 작업을 실행하려면 컴퓨팅이 필요합니다. 개념적으로 서버리스 작업 컴퓨팅(간편, 관리), 클래식 작업 클러스터(사용자 지정 가능) 또는 SQL 웨어하우스(SQL 작업용) 중에서 선택합니다. 또한 태스크가 컴퓨팅을 공유할지(시작 비용 절감) 또는 격리된 컴퓨팅에서 실행할지 결정합니다(더 강력한 격리 및 유연성 제공).
5. 작동 매개 변수 설정
작업을 프로덕션 준비 상태로 만들려면, 동시성 제한, 재시도, 시간 제한, 알림과 통지와 같은 교차 기능을 구성하세요. 작업을 다른 컨텍스트(예: 개발, 테스트, prod)에서 다시 사용할 수 있도록 매개 변수를 추가합니다. Git(버전 제어 통합) 및 태그 지정은 유지 관리 및 거버넌스를 추가로 지원합니다.
6. 모니터링 및 반복
작업이 실행되면 시스템 테이블과 실행 기록을 사용하여 성능을 추적하고, 오류를 확인하고, 최적화합니다. 개념적으로 이 단계는 루프를 닫습니다. 작업만 "설정하고 잊어버리는" 것이 아니라, 요구 사항이 진화함에 따라 컴퓨팅 사용량을 모니터링하고, 컴퓨팅 사용을 조정하고, 트리거를 구체화하고, 작업을 조정합니다.
다음 단계를 수행하면 빅 데이터 및 기계 학습 프로젝트에 대한 플랫폼의 기능을 사용하여 Lakeflow 작업을 사용하여 데이터 처리 및 분석 워크로드를 효율적으로 배포하고 관리할 수 있습니다.