이 섹션에서는 Azure Databricks 사용자 인터페이스에서 Lakeflow Spark 선언적 파이프라인에 대한 기본 제공 모니터링 및 관찰 기능 사용에 대해 설명합니다. 이러한 기능은 다음과 같은 작업을 지원합니다.
- 파이프라인 업데이트의 진행률 및 상태를 관찰합니다. 모니터링 페이지에서 사용할 수 있는 파이프라인 세부 정보를 참조하세요.
- 파이프라인 업데이트의 성공 또는 실패와 같은 파이프라인 이벤트에 대한 경고입니다. 파이프라인 이벤트에 대한 이메일 알림 추가를 참조하세요.
- Apache Kafka 및 자동 로더(공개 미리 보기)와 같은 스트리밍 원본에 대한 메트릭 보기 스트리밍 지표 보기를 참조하세요.
파이프라인 이벤트에 대한 이메일 알림 추가
다음이 발생할 때 알림을 받도록 하나 이상의 전자 메일 주소를 구성할 수 있습니다.
- 파이프라인 업데이트가 성공적으로 완료되었습니다.
- 다시 시도하거나 다시 시도할 수 없는 오류로 파이프라인 업데이트가 실패합니다. 모든 파이프라인 오류에 대한 알림을 받으려면 이 옵션을 선택합니다.
- 다시 시도할 수 없는(심각한) 오류로 파이프라인 업데이트가 실패합니다. 다시 시도할 수 없는 오류가 발생한 경우에만 알림을 받으려면 이 옵션을 선택합니다.
- 단일 데이터 흐름이 실패합니다.
이메일 알림을 구성하려면 파이프라인에 대한 설정을 편집합니다. 알림을 참조하세요.
비고
Python 이벤트 후크를 사용하여 알림 또는 사용자 지정 처리를 포함하여 이벤트에 대한 사용자 지정 응답을 만듭니다.
UI에서 파이프라인 보기
작업 영역 사이드바의 작업 및 파이프라인 옵션입니다. 그러면 액세스 권한이 있는 각 작업 및 파이프라인 에 대한 정보를 볼 수 있는 작업 및 파이프라인 페이지가 열립니다. 파이프라인의 이름을 클릭하여 파이프라인 모니터링 페이지를 엽니다. 작업 또는 파이프라인을 편집하려면
을 클릭합니다. 메뉴와 편집을 선택합니다.
비고
작업 및 파이프라인 유형에 따라 편집기가 다릅니다. 편집 옵션을 선택하면 선택한 개체에 대한 올바른 편집기가 열립니다.
작업 및 파이프라인 목록 사용
액세스할 수 있는 파이프라인 목록을 보려면 사이드바의 작업 및 파이프라인입니다.
작업 및 파이프라인 탭에는 작성자, 트리거(있는 경우) 및 마지막 5개 실행의 결과와 같은 사용 가능한 모든 작업 및 파이프라인에 대한 정보가 나열됩니다.
파이프라인 또는 작업의 이름을 클릭하면 해당 파이프라인 또는 작업의 모니터링 페이지로 이동합니다. 파이프라인 또는 작업을 편집하려면 을 클릭한 다음 편집을 선택합니다.
목록에 표시된 열을 변경하려면 을 클릭하고 열을 선택하거나 선택 취소합니다. 예를 들어
Pipeline Type을(를) 열로 추가하려면 해당 열을 선택하십시오.
다음 스크린샷과 같이 작업 및 파이프라인 목록에서 작업을 필터링할 수 있습니다.
-
텍스트 검색: 이름 및 ID 필드에 대해 키워드 검색이 지원됩니다. 키와 값으로 만든 태그를 검색하려면 키, 값 또는 키와 값 모두로 검색할 수 있습니다. 예를 들어 키
department와 값finance가 있는 태그의 경우department또는finance를 검색하여 일치하는 작업을 찾을 수 있습니다. 키와 값으로 검색하려면 콜론으로 구분된 키와 값을 입력합니다(예:department:finance). - 형식: 작업, 파이프라인 또는 모두별로 필터링합니다. 파이프라인을 선택하는 경우 ETL 및 수집 파이프라인을 포함하는 파이프라인 유형별로 필터링할 수도 있습니다.
- 소유자: 소유한 작업만 표시합니다.
- 즐겨찾기: 즐겨찾기로 표시한 작업을 표시합니다.
- 태그: 태그를 사용합니다. 태그별로 검색하려면 태그 드롭다운 메뉴를 사용하여 최대 5개의 태그를 동시에 필터링하거나 키워드 검색을 직접 사용할 수 있습니다.
-
다음으로 실행: 최대 2개의
run as값으로 필터할 수 있습니다.
작업 또는 파이프라인을 시작하려면 재생 단추를 클릭합니다. 작업 또는 파이프라인을 중지하려면
단추를 클릭합니다. 다른 작업에 액세스하려면 케밥 메뉴
을 클릭합니다. 예를 들어 작업 또는 파이프라인을 편집하거나 삭제하거나 해당 메뉴에서 파이프라인에 대한 설정에 액세스할 수 있습니다.
모니터링 페이지에서 사용할 수 있는 파이프라인 세부 정보
비고
UI에서 파이프라인을 모니터링할 때 표시되는 내용에 영향을 줄 수 있는 여러 미리 보기가 있습니다.
- Lakeflow 파이프라인 편집기는 파이프라인 세부 사항에 대한 경험을 변화시킵니다. 미리 보기에 옵트인된 경우 정보는 여기에 설명된 것과 다른 UI에 표시됩니다. 해당 UI에 대한 자세한 내용은 Lakeflow 파이프라인 편집기에서 변경 내용을 참조하세요.
- 통합 실행 목록 미리 보기는 작업 실행 목록에 파이프라인 실행을 추가합니다. 해당 미리 보기를 사용하도록 설정된 변경 내용 및 이를 사용하도록 설정하는 방법에 대한 자세한 내용은 통합 실행 목록 미리 보기의 변경 내용을 참조하세요.
작업 및 파이프라인 페이지에서 파이프라인의 이름을 클릭하면 해당 파이프라인에 대한 모니터링 페이지가 표시됩니다. 여기에서 파이프라인 실행을 시작하고 이전 실행 세부 정보를 볼 수 있습니다.
파이프라인에 대한 업데이트가 성공적으로 시작되자마자 파이프라인 그래프(DAG라고도 함)가 나타납니다. 화살표는 파이프라인의 데이터 세트 간의 종속성을 나타냅니다. 기본적으로 파이프라인 모니터링 페이지에는 테이블에 대한 최신 업데이트가 표시되지만 드롭다운 메뉴에서 이전 업데이트를 선택할 수 있습니다.
세부 정보에는 파이프라인 ID, 소스 코드, 컴퓨팅 비용, 제품 버전 및 파이프라인에 대해 구성된 채널이 포함됩니다.
데이터 세트의 테이블 형식 보기를 보려면 목록 탭을 클릭합니다. 목록 보기를 사용하면 파이프라인의 모든 데이터 세트를 테이블의 행으로 표시할 수 있으며 파이프라인 그래프가 너무 커서 그래프 보기에서 시각화할 수 없을 때 유용합니다. 데이터 세트 이름, 형식 및 상태와 같은 여러 필터를 사용하여 테이블에 표시되는 데이터 세트를 제어할 수 있습니다. 다시 DAG 시각화로 전환하려면 그래프를 클릭하세요.
실행 사용자는 파이프라인 소유자이며 파이프라인 업데이트는 이 사용자의 권한으로 실행됩니다.
run as 사용자를 변경하려면 권한을 클릭하고 파이프라인 소유자를 변경합니다.
Lakeflow 파이프라인 편집기에서 어떤 변경 내용이 있나요?
Lakeflow 파이프라인 편집기 미리 보기 및 새 파이프라인 모니터링 UI에 옵트인되는 경우 일부 정보는 UI의 다른 위치에 있습니다. Lakeflow 파이프라인 편집기 및 두 미리 보기 모두에 대한 자세한 내용은 Lakeflow 파이프라인 편집기 사용 및 업데이트된 모니터링을 참조하세요.
중요합니다
이 기능은 공개 미리보기 단계에 있습니다.
파이프라인 모니터링 페이지를 사용하여 모니터링에 대한 다음 변경 내용은 두 미리 보기 모두에 옵트인될 때 표시됩니다.
오른쪽 패널의 파이프라인 세부 정보 및 업데이트 세부 정보 탭이 위쪽의 파이프라인 세부 정보와 병합된 후 업데이트 세부 정보가 표시됩니다.
그래프에서 표를 클릭하면 오른쪽 패널에 테이블 세부 정보가 표시되지 않습니다. 오른쪽 패널은 파이프라인 및 업데이트 세부 정보를 계속 표시합니다. 대신 아래쪽 패널에 테이블 정보가 표시됩니다.
개발 모드에서 파이프라인을 실행하는 규칙은 약간 업데이트됩니다. 개발 모드에 대한 자세한 내용은 개발 모드를 참조하세요.
- 일정 또는 트리거를 통해 파이프라인을 실행하는 것은 개발 모드를 사용할지 여부에 대한 파이프라인 설정을 따릅니다. 파이프라인 설정에서 파이프라인의 기본값을 변경할 수 있습니다.
- 모니터링 UI를 통해 파이프라인을 실행하면 파이프라인 설정에 정의된 모드가 사용됩니다. 드롭다운에서 다른 설정으로 실행 옵션을 사용하여 개발 모드를 사용할지 여부를 선택할 수 있습니다.
- 파이프라인 편집기에서 파이프라인을 실행하면 기본적으로 개발 모드로 설정됩니다. 드롭다운에서 다른 설정 옵션을 사용하여 개발 모드를 사용하지 않도록 선택할 수 있습니다.
파이프라인 세부 정보에 소스 코드에 대한 링크가 더 이상 없습니다. 대신 위쪽에서 파이프라인 편집 을 선택합니다. 특정 테이블의 코드로 이동하려면 DAG의 테이블 위로 마우스를 가져가서
을 클릭합니다.코드 단추로 이동합니다.
이벤트 로그는 파이프라인 모니터링 페이지의 모든 업데이트에 기본적으로 표시되지 않습니다. 처리하는 동안 오류가 발생하면 오류는 아래쪽 패널에 표시되고 로그 보기 단추가 표시되어 해당 실행에 대한 이벤트 로그를 볼 수 있습니다. 이벤트 로그는
을 선택하여 사용할 수도 있습니다.오른쪽 패널의 실행 세부 정보에서 이벤트 로그를 봅니다.
새 Lakeflow 파이프라인 편집기에서 업데이트를 실행할 때 이벤트 로그에 액세스하려면 편집기 아래쪽의 문제 및 인사이트 패널로 이동한 다음 로그 보기 또는 오류 옆에 있는 로그 열기 단추를 클릭합니다. 자세한 내용은 이벤트 로그에 대한 Lakeflow 파이프라인 편집기 및 파이프라인 설정을 참조하세요.
테이블 스키마 정보는 아래쪽 패널의 테이블 탭에서 테이블을 선택한 다음 열을 선택하여 사용할 수 있습니다.
쿼리 기록은 아래쪽 패널에서 성능을 선택하여 사용할 수 있습니다.
테이블 주석은 파이프라인 세부 정보 페이지에서 사용할 수 없습니다. 테이블 주석을 보려면 카탈로그 탐색기에서 테이블을 봅니다. 카탈로그 탐색기의 테이블로 직접 이동하려면 DAG의 테이블 위로 마우스를 가져간 다음
을 클릭한 다음
을 클릭합니다.카탈로그에서 봅니다.
을 클릭하여 아래쪽 패널의 테이블 목록에서 카탈로그 탐색기의 정보에 액세스할 수도 있습니다.
통합 실행 목록 미리 보기의 변경 내용은 무엇인가요?
통합 실행 목록 미리 보기를 사용하도록 설정한 경우 작업 및 파이프라인 페이지에서 파이프라인 실행 업데이트를 볼 수 있습니다.
중요합니다
통합 실행 목록은 공개 미리 보기로 제공됩니다.
통합 실행 목록을 사용하도록 설정하려면 작업 영역 관리자가 미리 보기를 선택해야 합니다. 미리 보기 옵트인에 대한 자세한 내용은 계정 수준 미리 보기 관리를 참조하세요.
통합 실행 목록에 액세스하려면 을 선택합니다. 작업 영역 사이드바에서 실행하거나
작업 및 파이프라인을 선택한 다음 실행 탭을 선택합니다.
탭에는 지난 60일 동안의 최근 실행 목록이 표시됩니다. 다음 경우 지난 48시간 동안 실행의 성공 및 실패를 보여 주는 그래프가 먼저 표시됩니다.
- 작업 또는 파이프라인으로만 필터링됩니다.
- 관리자이거나 실행만 필터링하십시오.
Run as: Me - 실행은 그래프에 표시하는 데 최대 1시간이 걸릴 수 있습니다.
다음을 통해 목록 및 그래프를 필터링할 수 있습니다.
- 작업 또는 파이프라인의 이름입니다.
- 모든, 작업 또는 파이프라인.
- 파이프라인 유형 (ETL, 수집, MV/ST 또는 데이터베이스 테이블 동기화).
- 다른 사용자로 실행
- 실행 시작 시간 (지난 48시간 이내)입니다.
- 실행 상태입니다.
- 실패한 실행에 대한 오류 코드 입니다.
위의 열 외에도 목록에서 다음 열을 볼 수 있습니다.
- 종료 시간
- 실행 ID
- 실행이 수동으로 시작되었는지 또는 일정에 따라 실행 되었는지 여부입니다.
- 기간을 실행하라.
- 매개 변수를 실행합니다.
실행 목록에 표시되는 열을 변경하려면 클릭하고 열을 선택하거나 선택 취소합니다.
파이프라인 실행의 시작 시간, 종료 시간 또는 이름을 클릭하면 파이프라인의 모니터링 페이지 로 이동합니다.
파이프라인이 현재 실행 중이면 을 클릭하여 실행을 중지할 수 있습니다. 중지 단추입니다. 언제든지
을 클릭할 수도 있습니다. 실행 행의 메뉴 단추와 편집기에서 파이프라인을 보려면 파이프라인 편집 을 선택합니다.
데이터 세트 세부 정보를 보려면 어떻게 해야 합니까?
파이프라인 그래프 또는 데이터 세트 목록에서 데이터 세트를 클릭하면 데이터 세트에 대한 세부 정보가 표시됩니다. 세부 정보에는 데이터 세트 스키마, 데이터 품질 메트릭 및 데이터 세트를 정의하는 소스 코드에 대한 링크가 포함됩니다.
업데이트 기록 보기
파이프라인 업데이트의 기록 및 상태를 보려면 상단의 업데이트 기록 드롭다운 메뉴를 클릭하세요.
드롭다운 메뉴에서 업데이트를 선택하여 업데이트에 대한 그래프, 세부 정보 및 이벤트를 봅니다. 최신 업데이트로 돌아가려면 최신 업데이트 표시를 클릭합니다.
스트리밍 메트릭 보기
중요합니다
파이프라인에 대한 스트리밍 관찰 가능성은 공개 미리 보기로 제공됩니다.
파이프라인의 각 스트리밍 흐름에 대해 Apache Kafka, Amazon Kinesis, Auto Loader 및 Delta 테이블과 같은 Spark 구조적 스트리밍에서 지원하는 데이터 원본에서 스트리밍 메트릭을 볼 수 있습니다. 메트릭은 파이프라인 UI의 오른쪽 창에 차트로 표시되며 백로그 초, 백로그 바이트, 백로그 레코드 및 백로그 파일을 포함합니다. 차트는 매 분마다 집계된 최대값을 표시하고, 도구 설명은 차트 위에 마우스를 올렸을 때 최대값을 보여줍니다. 데이터는 현재 시간에서 지난 48시간으로 제한됩니다.
사용 가능한 스트리밍 메트릭이 있는 파이프라인의 테이블
LDP Chart Icon은 UI 그래프 보기에서 파이프라인 DAG를 볼 때 아이콘을 표시합니다. 스트리밍 메트릭을 보려면
을 클릭하여 오른쪽 창의 흐름 탭에 스트리밍 메트릭 차트를 표시합니다.
목록을(를) 클릭한 다음, 스트리밍 메트릭이 있는을(를) 클릭하여 스트리밍 메트릭이 있는 테이블만 보기 위해 필터를 적용할 수도 있습니다.
각 스트리밍 원본은 특정 메트릭만 지원합니다. 스트리밍 원본에서 지원되지 않는 메트릭은 UI에서 볼 수 없습니다. 다음 표에서는 지원되는 스트리밍 원본에 사용할 수 있는 메트릭을 보여 줍니다.
| source | 백로그 바이트 | 작업 대기 기록 | 지연 초 | 백로그 파일 |
|---|---|---|---|---|
| Kafka | ✓ | ✓ | ||
| Kinesis | ✓ | ✓ | ||
| Delta | ✓ | ✓ | ||
| 자동 로더 | ✓ | ✓ | ||
| Google Pub/Sub (Google의 메시징 서비스) | ✓ | ✓ |