데이터 팩터리 파이프라인 작업

완료됨

데이터 팩터리 파이프라인을 사용하려면 Azure Data Factory의 파이프라인이 무엇인지 이해하는 것이 중요합니다.

Azure Data Factory의 파이프라인은 특정 작업을 함께 수행하는 작업들의 논리적 그룹화를 나타냅니다.

한 파이프라인에서 작업을 조합하는 예로는 정리된 로그 데이터를 분석하는 매핑 데이터 흐름과 함께 로그 데이터를 수집 및 정리하는 것을 들 수 있습니다.

파이프라인을 사용하면 별도의 개별 작업을 한 집합으로 관리할 수 있습니다. 이렇게 하지 않으면 해당 작업은 개별적으로 관리됩니다. 파이프라인을 사용하면 각 작업을 독립적으로 관리하지 않고 단일 파이프라인을 사용하여 작업을 효율적으로 배포하고 예약할 수 있습니다.

파이프라인의 작업을 데이터에 대해 수행하는 작업이라고 합니다. 활동은 0개 이상의 입력 데이터 세트를 받고 하나 이상의 출력 데이터 세트를 생성할 수 있습니다.

작업의 예로는 Azure SQL Database에서 Azure DataLake Storage Gen2로 데이터를 복사하는 복사 작업을 들 수 있습니다. 이 예를 기반으로, 데이터 흐름 작업 또는 Azure Databricks Notebook 작업을 사용하여 Azure Synapse Analytics와 같은 비즈니스 인텔리전스 보고 솔루션에 대한 데이터를 준비하기 위해 Azure Data Lake Storage Gen2 계정에 복사된 데이터를 처리하고 변환할 수 있습니다.

Azure Data Factory의 파이프라인에서 수행할 수 있는 많은 작업이 있으므로 다음 세 가지 범주로 작업을 그룹화했습니다.

  • ‘데이터 이동 작업’: Data Factory의 복사 작업은 원본 데이터 저장소의 데이터를 싱크 데이터 저장소로 복사합니다.
  • 데이터 변환 작업: Azure Data Factory는 데이터 흐름, Azure Function, Spark 등의 변환 작업은 물론 개별적으로 또는 다른 작업과 연결하여 파이프라인에 추가할 수 있는 작업을 지원합니다.
  • 제어 작업: 제어 흐름 작업의 예로는 'get metadata', 'For Each' 및 'Execute Pipeline'이 있습니다.

작업은 서로 종속될 수 있습니다. 즉, 작업 종속성이 후속 작업이 이전 작업에 종속되는 방식을 정의합니다. 종속성 자체는 작업을 완료하기 위해 이전에 정의된 작업의 실행을 계속할지 여부에 대한 조건을 기반으로 할 수 있습니다. 하나 이상의 이전 작업에 따라 달라지는 작업은 여러 종속성 조건을 가질 수 있습니다.

네 가지 종속성 조건은 다음과 같습니다.

  • 성공
  • 실패
  • 건너뜀
  • Completed

예를 들어 파이프라인에 작업 A가 있고 그 뒤에 작업 B가 있고 작업 B가 작업 A 'Succeeded'에 대한 종속성 조건을 가지면 작업 B는 작업 A의 상태가 Succeeded인 경우에만 실행됩니다.

파이프라인에 여러 작업이 있고 이후 작업이 이전 작업에 종속되지 않는 경우 작업을 병렬로 실행할 수 있습니다.