데이터 수집 파이프라인 살펴보기

완료됨

이제 대규모 데이터 웨어하우징 솔루션의 아키텍처와 대량의 데이터를 처리하는 데 사용할 수 있는 분산 처리 기술 중 일부에 대해 조금 이해했으므로 하나 이상의 원본에서 분석 데이터 저장소로 데이터를 수집하는 방법을 살펴보아야 합니다.

Diagram showing a pipeline.

Azure에서 대규모 데이터 수집은 ETL 프로세스를 오케스트레이션하는 파이프라인을 만들어 구현하는 것이 가장 좋습니다. 통합 작업 영역에서 데이터 분석 솔루션의 모든 구성 요소를 관리하려는 경우 Azure Data Factory를 사용하여 파이프라인을 만들고 실행할 수 있거나 Azure Synapse Analytics 또는 Microsoft Fabric에서 유사한 파이프라인 엔진을 사용할 수 있습니다.

두 경우 모두 파이프라인은 데이터에서 작동하는 하나 이상의 활동으로 구성됩니다. 입력 데이터 세트는 원본 데이터를 제공하며, 작업은 출력 데이터 세트가 생성될 때까지 데이터를 증분 방식으로 조작하는 데이터 흐름으로 정의할 수 있습니다. 파이프라인은 외부 데이터 원본에 연결하여 다양한 데이터 서비스와 통합할 수 있습니다.