Azure Data Factory 파이프라인 모니터링

완료됨

Azure Data Factory에서 파이프라인을 생성하고 게시한 후에는 해당 파이프라인을 트리거와 연결하거나 주문형 실행을 수동으로 시작할 수 있습니다. Azure Data Factory 사용자 환경에서 기본적으로 모든 파이프라인 실행을 모니터링할 수 있습니다. 모니터링 환경을 열려면 Azure Portal의 데이터 팩터리 블레이드에서 모니터링 및 관리 타일을 선택합니다. 이미 Azure Data Factory UX에 있는 경우 왼쪽 사이드바에서 모니터 아이콘을 클릭합니다.

파이프라인 실행 모니터링

기본 모니터링 보기는 선택한 기간에 트리거된 파이프라인 실행 목록입니다. 시간 범위를 변경하고 상태, 파이프라인 이름 또는 주석을 기준으로 필터링할 수 있습니다. 특정 파이프라인 실행을 마우스로 가리키면 다시 실행 및 사용량 보고서와 같은 실행 관련 작업이 표시됩니다.

List view for monitoring pipeline runs

파이프라인 실행 그리드에는 다음 열이 있습니다.

열 이름 설명
파이프라인 이름 파이프라인 이름입니다.
실행 시작 파이프라인 실행에 대한 시작 날짜 및 시간(MM/DD/YYYY, HH: MM: SS AM/PM)
실행 종료 파이프라인 실행에 대한 종료 날짜 및 시간(MM/DD/YYYY, HH:MM:SS AM/PM)
Duration 실행 기간 (HH:MM:SS)
트리거 주체 파이프라인을 시작한 트리거의 이름입니다.
상태 실패, 성공, 진행 중, 취소 또는 큐 대기
주석 파이프라인에 연결된 필터링 가능한 태그
매개 변수 파이프라인 실행 매개 변수 (이름/값 쌍)
Error 파이프라인이 실패한 경우 실행 오류
실행 ID 파이프라인 실행 ID입니다.

파이프라인 및 활동 실행 목록을 새로 고치려면 새로 고침 단추를 수동으로 선택해야 합니다. 자동 새로 고침은 현재 지원되지 않습니다.

Refresh button

디버그 실행의 결과를 보려면 디버그 탭을 선택합니다.

Select the View active debug runs icon

작업 실행 모니터링

특정 파이프라인 실행의 개별 활동 실행을 자세히 보려면 파이프라인 이름을 클릭합니다.

View activity runs

목록 보기에는 각 파이프라인 실행에 해당하는 작업 실행이 표시됩니다. 특정 활동 실행을 마우스로 가리키면 JSON 입력, JSON 출력 및 자세한 활동 관련 모니터링 환경과 같은 실행 관련 정보가 표시됩니다. 데이터 흐름, 복사 및 Azure Databricks와 같은 활동에는 안경 아이콘을 클릭하여 볼 수 있는 전용 보기가 있습니다.

View the activity runs in the monitoring tool

열 이름 설명
작업 이름 파이프라인 내 작업 이름
작업 유형 복사, ExecuteDataFlow 또는 AzureMLExecutePipeline 같은 작업 유형
동작 JSON 입력 정보, JSON 출력 정보 또는 자세한 작업 관련 모니터링 환경을 볼 수 있는 아이콘
실행 시작 작업 실행에 대한 시작 날짜 및 시간(MM/DD/YYYY, HH: MM: SS AM/PM)
Duration 실행 기간 (HH:MM:SS)
상태 실패, 성공, 진행 중 또는 취소
통합 런타임 작업이 실행된 Integration Runtime
사용자 속성 작업의 사용자 정의 속성
Error 작업이 실패한 경우 실행 오류
실행 ID 활동 실행 ID입니다.

활동이 실패한 경우 오류 열의 아이콘을 클릭하여 자세한 오류 메시지를 볼 수 있습니다.

Viewing activity run errors

Gantt 보기

Gantt 차트는 시간 범위에 따른 실행 기록을 확인할 수 있는 보기입니다. Gantt 보기로 전환하면 이름별로 그룹화된 모든 파이프라인 실행이 실행에 걸린 시간과 관련된 막대로 표시된 것을 확인할 수 있습니다. 또한 파이프라인에서 생성한 주석/태그별로 그룹화할 수도 있습니다. Gantt 보기는 활동 실행 수준에서도 사용할 수 있습니다.

Example of a Gantt chart

막대의 길이는 파이프라인의 기간을 알려줍니다. 막대를 선택하여 자세한 내용을 볼 수도 있습니다.

Gantt chart duration

데이터 흐름 디버그 세션 모니터링

데이터 흐름을 매핑하면 대규모로 실행되는 코드 없는 데이터 변환 논리를 빌드할 수 있습니다. 논리를 빌드할 때 디버그 세션을 켜고 라이브 Spark 클러스터를 사용하여 대화형으로 데이터 작업을 수행할 수 있습니다.

모니터 환경에서 팩터리 전체의 활성 데이터 흐름 디버그 세션을 모니터링할 수 있습니다.

View data flow debug sessions

모니터링 대시보드

파이프라인, 작업 및 트리거 실행에 대한 시각적 표시를 전반적으로 확인하려면 대시보드 창으로 이동합니다. 여기에서 지정된 기간의 성공 및 실패 횟수를 확인할 수 있습니다.

reading the monitor dashboard

Azure Monitor를 사용한 모니터링

Azure Monitor는 대부분의 Azure 서비스에 대한 기본 수준의 인프라 메트릭 및 로그를 제공합니다. Azure 진단 로그는 리소스에서 내보내며, 해당 리소스의 작업에 대한 풍부하고 빈번한 데이터를 제공합니다. ADF(Azure Data Factory)는 Azure Monitor에서 진단 로그를 작성할 수 있습니다.

Data Factory는 파이프라인 실행 데이터를 45일 동안만 저장합니다. 해당 데이터를 더 오랫동안 유지하려는 경우 Azure Monitor를 사용해야 합니다. Monitor를 사용하면 분석을 위한 진단 로그를 여러 다양한 대상으로 라우팅할 수 있습니다.

  • 스토리지 계정: 감사 또는 수동 검사를 위해 스토리지 계정에 진단 로그를 저장합니다. 진단 설정을 사용하여 보존 시간(일)을 지정할 수 있습니다.
  • 이벤트 허브: 로그를 Azure Event Hubs로 스트리밍합니다. 로그는 Power BI와 같은 파트너 서비스/사용자 지정 분석 솔루션에 입력됩니다.
  • Log Analytics: Log Analytics를 사용하여 로그를 분석합니다. Azure Monitor와 Data Factory 통합은 다음과 같은 시나리오에서 유용합니다.
    • Data Factory에서 Monitor에 게시한 다양한 메트릭 세트에 대해 복잡한 쿼리를 작성하려고 합니다. Monitor를 통해 해당 쿼리에 대한 사용자 지정 경고를 생성할 수 있습니다.
    • 데이터 팩터리를 모니터링하려고 합니다. 여러 데이터 팩터리의 데이터를 단일 Monitor 작업 영역으로 라우팅할 수 있습니다.

또한 로그를 내보내는 리소스의 구독에 없는 스토리지 계정 또는 이벤트 허브 네임스페이스를 사용할 수도 있습니다. 설정을 구성하는 사용자는 두 구독 모두에 대한 적절한 Azure RBAC(Azure 역할 기반 액세스 제어) 액세스 권한이 있어야 합니다.

진단 설정 및 작업 영역 구성

데이터 팩터리에 대한 진단 설정을 생성하거나 추가합니다.

  1. 포털에서 모니터로 이동합니다. 설정>진단 설정을 선택합니다.

  2. 진단 설정을 지정하려는 데이터 팩터리를 선택합니다.

  3. 선택한 데이터 팩터리에 설정이 없는 경우 설정을 생성하라는 메시지가 표시됩니다. 진단 켜기를 선택합니다.

Create a diagnostic setting if no settings exist

데이터 팩터리에 대한 기존 설정이 있는 경우 데이터 팩터리에 대해 이미 구성된 설정 목록이 표시됩니다. 진단 설정 추가를 선택합니다.

Add a diagnostic setting if settings exist

  1. 설정에 이름을 지정하고 Log Analytics에 보내기를 선택한 후 Log Analytics 작업 영역에서 작업 영역을 선택합니다.

    • Azure-Diagnostics 모드에서 진단 로그는 AzureDiagnostics 테이블로 흐릅니다.

    • Resource-Specific 모드에서 Azure Data Factory의 진단 로그는 다음 테이블로 흐릅니다.

      • ADFActivityRun
      • ADFPipelineRun
      • ADFTriggerRun
      • ADFSSISIntegrationRuntimeLogs
      • ADFSSISPackageEventMessageContext
      • ADFSSISPackageEventMessages
      • ADFSSISPackageExecutableStatistics
      • ADFSSISPackageExecutionComponentPhases
      • ADFSSISPackageExecutionDataStatistics

      Log Analytics 테이블에 보낼 워크로드와 관련된 다양한 로그를 선택할 수 있습니다. 예를 들어 SSIS(SQL Server Integration Services)를 전혀 사용하지 않는 경우 SSIS 로그를 선택할 필요가 없습니다. SSIS IR(Integration Runtime) 시작/중지/유지 관리 작업을 로그하려는 경우 SSIS IR 로그를 선택할 수 있습니다. SSMS(SQL Server Management Studio), SQL Server 에이전트 또는 기타 지정된 도구에서 T-SQL을 통해 SSIS 패키지 실행을 호출하는 경우 SSIS 패키지 로그를 선택할 수 있습니다. ADF 파이프라인에서 SSIS 패키지 실행 작업을 통해 SSIS 패키지 실행을 호출하는 경우 모든 로그를 선택할 수 있습니다.

    • AllMetrics를 선택하는 경우 SSIS IR 작업 및 SSIS 패키지 실행뿐만 아니라 Azure Data Factory 작업, 파이프라인 및 트리거 실행에 대한 메트릭을 포함하여 경고를 모니터링하거나 발생시키는 데 다양한 Azure Data Factory 메트릭을 사용할 수 있습니다.

Name your settings and select a log-analytics workspace

> [!NOTE]
> Because an Azure log table can't have more than 500 columns, Select _Resource-Specific mode_.
  1. 저장을 선택합니다.

잠시 후 이 데이터 팩터리의 설정 목록에 새 설정이 나타납니다. 새 이벤트 데이터가 생성되는 즉시 진단 로그가 해당 작업 영역으로 스트리밍됩니다. 이벤트가 내보내지는 시점에서 Log Analytics에 표시되는 시점까지 최대 15분이 걸릴 수 있습니다.