Delta Live Tables 파이프라인에서 업데이트 실행

이 문서에서는 Delta Live Tables 파이프라인 업데이트의 정의와 이를 실행하는 방법을 설명합니다.

파이프라인을 만들고 실행할 준비가 되면 업데이트를 시작합니다. 파이프라인 업데이트는 다음을 수행합니다.

  • 올바른 구성으로 클러스터를 시작합니다.
  • 정의된 모든 테이블과 뷰를 검색하고 잘못된 열 이름, 종속성 누락 및 구문 오류 등의 분석 오류를 확인합니다.
  • 사용 가능한 가장 최근 데이터로 테이블과 뷰를 만들거나 업데이트합니다.

유효성 검사 업데이트를 사용하여 테이블을 만들거나 업데이트할 때까지 기다리지 않고 파이프라인의 소스 코드에서 문제를 검사 수 있습니다. 이 Validate 기능은 파이프라인에서 잘못된 테이블 또는 열 이름과 같은 오류를 빠르게 찾아 수정할 수 있도록 하여 파이프라인을 개발하거나 테스트할 때 유용합니다.

파이프라인을 만드는 방법을 알아보려면 자습서: 첫 번째 Delta Live Tables 파이프라인 실행을 참조하세요.

파이프라인 업데이트 시작

Azure Databricks는 다음을 포함하여 파이프라인 업데이트를 시작하는 몇 가지 옵션을 제공합니다.

  • Delta Live Tables UI에는 다음과 같은 옵션이 있습니다.
    • 델타 라이브 테이블 시작 아이콘 파이프라인 세부 정보 페이지에서 단추를 클릭합니다.
    • 파이프라인 목록에서 작업 열을 클릭합니다오른쪽 화살표 아이콘.
  • Notebook에서 업데이트를 시작하려면 Notebook 도구 모음에서 Delta Live Tables > 시작을 클릭합니다. Notebook에서 Delta Live Tables 파이프라인 열기 또는 실행을 참조하세요.
  • API 또는 CLI를 사용하여 프로그래밍 방식으로 파이프라인을 트리거할 수 있습니다. Delta Live Tables API 가이드를 참조하세요.
  • Delta Live Tables UI 또는 작업 UI를 사용하여 파이프라인을 작업으로 예약할 수 있습니다. 파이프라인 예약을 참조하세요.

Delta Live Tables에서 테이블 및 뷰를 업데이트하는 방법

업데이트된 테이블 및 뷰와 해당 테이블 및 뷰 업데이트 방법은 업데이트 유형에 따라 달라집니다.

  • 모두 새로 고침: 모든 라이브 테이블이 입력 데이터 원본의 현재 상태를 반영하도록 업데이트됩니다. 모든 스트리밍 테이블의 경우 새 행이 테이블에 추가됩니다.
  • 모두 전체 새로 고침: 모든 라이브 테이블이 입력 데이터 원본의 현재 상태를 반영하도록 업데이트됩니다. 모든 스트리밍 테이블의 경우 Delta Live Tables는 각 테이블의 모든 데이터를 지우고 스트리밍 원본에서 모든 데이터를 로드하려고 시도합니다.
  • 선택 영역 새로 고침: refresh selection의 동작은 refresh all과 동일하지만 선택한 테이블만 새로 고칠 수 있습니다. 선택한 라이브 테이블이 입력 데이터 원본의 현재 상태를 반영하도록 업데이트됩니다. 선택한 스트리밍 테이블의 경우 새 행이 테이블에 추가됩니다.
  • 선택 영역 전체 새로 고침: full refresh selection의 동작은 full refresh all과 동일하지만 선택한 테이블에 대해서만 전체 새로 고침을 수행할 수 있습니다. 선택한 라이브 테이블이 입력 데이터 원본의 현재 상태를 반영하도록 업데이트됩니다. 선택한 스트리밍 테이블의 경우 Delta Live Tables는 각 테이블의 모든 데이터를 지우고 스트리밍 원본에서 모든 데이터를 로드하려고 시도합니다.

기존 라이브 테이블의 경우 업데이트는 구체화된 뷰에서 SQL REFRESH와 동일한 동작을 나타냅니다. 새 라이브 테이블의 경우 동작은 SQL CREATE 작업과 동일합니다.

선택한 테이블에 대한 파이프라인 업데이트 시작

파이프라인에서 선택한 테이블에 대해서만 데이터를 다시 처리할 수 있습니다. 예를 들어 개발 중에는 단일 테이블만 변경하고 테스트 시간을 줄이려고 하거나 파이프라인 업데이트가 실패하고 실패한 테이블만 새로 고치려고 합니다.

참고 항목

트리거된 파이프라인에서만 선택적 새로 고침을 사용할 수 있습니다.

선택한 테이블만 새로 고치는 업데이트를 시작하려면 파이프라인 세부 정보 페이지에서 다음을 수행합니다.

  1. 새로 고칠 테이블 선택을 클릭합니다. 새로 고칠 테이블 선택 대화 상자가 나타납니다.

    새로 고침을 위한 테이블 선택 단추가 표시되지 않으면 파이프라인 세부 정보 페이지에 최신 업데이트가 표시되고 업데이트가 완료되었는지 확인합니다. 예를 들어 업데이트가 실패 했기 때문에 DAG가 최신 업데이트에 대해 표시되지 않으면 새로 고침 을 위한 테이블 선택 단추가 표시되지 않습니다.

  2. 새로 고칠 테이블을 선택하려면 각 테이블을 클릭합니다. 선택한 테이블이 강조 표시되고 레이블이 지정됩니다. 업데이트에서 테이블을 제거하려면 테이블을 다시 클릭합니다.

  3. 선택 영역 새로 고침을 클릭합니다.

    참고 항목

    선택 영역 새로 고침 단추는 선택한 테이블 수를 괄호 안에 표시합니다.

선택한 테이블에 대해 이미 수집된 데이터를 다시 처리하려면 새로 고침 선택 단추 옆을 클릭하고 블루 다운 케어 전체 새로 고침 선택을 클릭합니다.

실패한 테이블에 대한 파이프라인 업데이트 시작

파이프라인 그래프에 있는 하나 이상의 테이블 오류로 인해 파이프라인 업데이트가 실패하는 경우 실패한 테이블 및 모든 다운스트림 종속성의 업데이트만 시작할 수 있습니다.

참고 항목

제외된 테이블은 실패한 테이블에 종속된 경우에도 새로 고쳐지지 않습니다.

실패한 테이블을 업데이트하려면 파이프라인 세부 정보 페이지에서 실패한 테이블 새로 고침을 클릭합니다.

선택한 실패한 테이블만 업데이트하려면 다음을 수행합니다.

  1. 실패한 테이블 새로 고침 단추 옆을 클릭하고 단추 아래쪽 새로 고칠 테이블 선택을 클릭합니다. 새로 고칠 테이블 선택 대화 상자가 나타납니다.

  2. 새로 고칠 테이블을 선택하려면 각 테이블을 클릭합니다. 선택한 테이블이 강조 표시되고 레이블이 지정됩니다. 업데이트에서 테이블을 제거하려면 테이블을 다시 클릭합니다.

  3. 선택 영역 새로 고침을 클릭합니다.

    참고 항목

    선택 영역 새로 고침 단추는 선택한 테이블 수를 괄호 안에 표시합니다.

선택한 테이블에 대해 이미 수집된 데이터를 다시 처리하려면 새로 고침 선택 단추 옆을 클릭하고 블루 다운 케어 전체 새로 고침 선택을 클릭합니다.

테이블이 업데이트되는 것을 기다리지 않고 파이프라인에서 오류를 확인합니다.

Important

Delta Live Tables Validate 업데이트 기능은 공개 미리 보기제공됩니다.

전체 업데이트를 실행하지 않고 파이프라인의 소스 코드가 유효한지 여부를 검사 유효성 검사를 사용합니다. 업데이트는 Validate 파이프라인에 정의된 데이터 세트 및 흐름의 정의를 확인하지만 데이터 세트를 구체화하거나 게시하지는 않습니다. 잘못된 테이블 또는 열 이름과 같은 유효성 검사 중에 발견된 오류는 UI에 보고됩니다.

업데이트를 실행 Validate 하려면 파이프라인 세부 정보 페이지에서 시작 옆을 클릭하고 블루 다운 케어 유효성 검사를 클릭합니다.

업데이트가 Validate 완료되면 이벤트 로그에 업데이트와 관련된 이벤트만 Validate 표시되고 DAG에 메트릭이 표시되지 않습니다. 오류가 발견되면 이벤트 로그에서 세부 정보를 사용할 수 있습니다.

최신 Validate 업데이트에 대한 결과만 볼 수 있습니다. 업데이트가 Validate 가장 최근에 실행된 업데이트인 경우 업데이트 기록에서 선택하여 결과를 볼 수 있습니다. 업데이트 후에 다른 업데이트가 Validate 실행되면 UI에서 결과를 더 이상 사용할 수 없습니다.

연속 및 트리거된 파이프라인 실행

파이프라인에서 트리거된 실행 모드를 사용하는 경우 시스템은 파이프라인에서 모든 테이블 또는 선택한 테이블을 한 번 새로 고쳐서 업데이트를 시작할 때 사용할 수 있는 데이터에 따라 업데이트의 일부인 각 테이블이 업데이트되도록 한 후 처리를 중지합니다.

파이프라인이 연속 실행을 사용하는 경우 Delta Live Tables는 데이터 원본에 도착하는 새 데이터를 처리하여 파이프라인 전체의 테이블을 최신 상태로 유지합니다.

실행 모드는 계산되는 테이블 유형과 무관합니다. 구체화된 뷰와 스트리밍 테이블은 모두 실행 모드에서 업데이트할 수 있습니다. 연속 실행 모드에서 불필요한 처리를 방지하기 위해 파이프라인은 종속 델타 테이블을 자동으로 모니터링하고 해당 종속 테이블의 내용이 변경된 경우에만 업데이트를 수행합니다.

데이터 파이프라인 실행 모드를 비교하는 테이블

다음 표에서는 이러한 실행 모드 간의 차이점을 강조 표시합니다.

트리거됨 연속
업데이트는 언제 중지되나요? 한 번 자동으로 완료됩니다. 수동으로 중지될 때까지 계속 실행됩니다.
어떤 데이터가 처리됩니까? 업데이트가 시작될 때 사용할 수 있는 데이터입니다. 구성된 원본에 도착하는 모든 데이터입니다.
가장 적합한 데이터 새로 고침 요구 사항은 무엇인가요? 데이터 업데이트는 매시간 또는 매일 10분마다 실행됩니다. 10초에서 몇 분 간격으로 원하는 데이터 업데이트입니다.

트리거된 파이프라인은 클러스터가 파이프라인을 실행할 만큼만 실행되기 때문에 리소스 사용량과 비용을 줄일 수 있습니다. 그러나 파이프라인이 트리거될 때까지 새 데이터가 처리되지 않습니다. 연속 파이프라인에는 항상 실행되는 클러스터가 필요하며, 이는 더 비싸지만 처리 대기 시간을 줄입니다.

설정에서 파이프라인 모드 옵션을 사용하여 실행 모드 를 구성할 수 있습니다.

파이프라인 경계를 선택하는 방법

Delta Live Tables 파이프라인은 단일 테이블, 종속 관계가 있는 많은 테이블, 관계가 없는 많은 테이블 또는 종속 관계가 있는 테이블의 여러 독립 흐름에 대한 업데이트를 처리할 수 있습니다. 이 섹션에는 파이프라인을 중단하는 방법을 결정하는 데 도움이 되는 고려 사항이 포함되어 있습니다.

델타 라이브 테이블 파이프라인이 클수록 많은 이점이 있습니다. 여기에는 다음이 포함됩니다.

  • 클러스터 리소스를 보다 효율적으로 사용하려는 경우
  • 작업 영역의 파이프라인 수를 줄이려는 경우
  • 워크플로 오케스트레이션의 복잡성을 낮추려는 경우

처리 파이프라인을 분할하는 방법에 대한 몇 가지 일반적인 권장 사항은 다음과 같습니다.

  • 팀 경계에서 기능을 분할하려는 경우. 예를 들어 데이터 분석가가 변환된 데이터를 분석하는 파이프라인을 유지 관리하는 동안 데이터 팀은 데이터를 변환하는 파이프라인을 유지 관리할 수 있습니다.
  • 애플리케이션별 경계에서 기능을 분할하여 결합을 줄이고 일반적인 기능의 재사용을 용이하게 하려는 경우.

개발 및 프로덕션 모드

개발 모드와 프로덕션 모드 간에 전환하여 파이프라인 실행을 최적화할 수 있습니다. 델타 라이브 테이블 환경 토글 아이콘 파이프라인 UI의 단추를 사용하여 이러한 두 모드 간에 전환합니다. 기본적으로 파이프라인은 개발 모드에서 실행됩니다.

개발 모드에서 파이프라인을 실행하는 경우 Delta Live Tables 시스템은 다음을 수행합니다.

  • 다시 시작 오버헤드를 피하기 위해 클러스터를 재사용합니다. 기본적으로 클러스터는 개발 모드가 사용하도록 설정되면 2시간 동안 실행됩니다. 컴퓨팅 설정 구성의 pipelines.clusterShutdown.delay 설정을 사용하여 이 설정을 변경할 수 있습니다.
  • 오류를 즉시 검색하고 수정할 수 있도록 파이프라인 다시 시도를 사용하지 않도록 설정합니다.

프로덕션 모드에서 Delta Live Tables 시스템은 다음을 수행합니다.

  • 메모리 누수 및 부실 자격 증명을 포함하여 복구 가능한 특정 오류에 대해 클러스터를 다시 시작합니다.
  • 클러스터 시작 실패와 같은 특정 오류가 발생한 경우 실행을 다시 시도합니다.

참고 항목

개발 모드와 프로덕션 모드 간 전환은 클러스터 및 파이프라인 실행 동작만 제어합니다. 게시 테이블에 대한 카탈로그의 스토리지 위치 및 대상 스키마는 파이프라인 설정의 일부로 구성되어야 하며 모드 간에 전환할 때는 영향을 받지 않습니다.

파이프라인 예약

트리거된 파이프라인을 수동으로 시작하거나 Azure Databricks 작업을 사용하여 일정에 따라 파이프라인을 실행할 수 있습니다. Delta Live Tables UI에서 직접 단일 파이프라인 작업을 사용하여 작업을 만들고 예약하거나, 작업 UI에서 파이프라인 작업을 다중 작업 워크플로에 추가할 수 있습니다.

Delta Live Tables UI에서 단일 작업 및 작업 일정을 만들려면 다음을 수행합니다.

  1. 일정 > 일정 추가를 차례로 클릭합니다. 파이프라인이 하나 이상의 예약된 작업에 포함된 경우 일정 단추는 기존 일정 수를 표시하도록 업데이트됩니다(예: 일정 (5)).
  2. 작업 이름 필드에서 작업 이름을 입력합니다.
  3. 예약예약됨으로 설정합니다.
  4. 기간, 시작 시간 및 표준 시간대를 지정합니다.
  5. 파이프라인 시작, 성공 또는 실패에 대한 경고를 받도록 하나 이상의 이메일 주소를 구성합니다.
  6. 만들기를 클릭합니다.