데이터 팩터리 수집 메서드 나열

4분

Azure Data Factory는 서로 다른 시작점에서 데이터 통합 프로젝트를 시작하는 조직을 수용할 수 있습니다. 데이터 마이그레이션 프로젝트가 그린 필드 프로젝트인 경우는 드뭅니다. 일반적으로 많은 데이터 통합 워크플로에서는 서로 다른 기술을 사용하여 이전 프로젝트에서 만들어졌으며 종속성도 서로 다른 기존 파이프라인을 고려해야 합니다. 이를 위해 다양한 원본에서 데이터를 추출하는 데 사용할 수 있는 다양한 수집 방법이 지원됩니다.

복사 작업을 사용하여 데이터 수집

이 방법을 사용하여 데이터 추출 중에 변환이 필요하지 않은 코드 없는 데이터 수집 파이프라인을 빌드할 수 있습니다. 복사 작업은 100개 이상의 기본 커넥터를 지원합니다. 이 방법은 중간 데이터 저장소로 추출하는 간단한 방법을 사용하는 그린 필드 프로젝트에 적합할 수 있습니다. 복사 작업을 사용하는 데이터 수집의 예로는 데이터를 여러 원본 데이터베이스 시스템에서 추출하고 데이터 레이크 저장소의 파일에 데이터를 출력하는 작업을 들 수 있습니다. 이 수집 방법의 장점은 간단히 만들 수 있다는 것이지만 복잡한 변환 또는 비즈니스 논리를 처리할 수는 없습니다.

컴퓨팅 리소스를 사용하여 데이터 수집

Azure Data Factory는 컴퓨팅 리소스를 호출하여 작업에 더 적합한 데이터 플랫폼 서비스를 통해 데이터를 처리할 수 있습니다. 이에 대한 좋은 예로, Azure Data Factory는 새 데이터를 생성하는 복잡한 계산을 수행하기 위해 Azure Synapse Analytics 인스턴스의 Spark 풀과 같은 분석 데이터 플랫폼에 대한 파이프라인을 만들 수 있습니다. 그런 다음, 이 데이터는 추가 다운스트림 처리를 위해 파이프라인으로 다시 수집됩니다. 다양한 컴퓨팅 리소스가 있으며 다음 표에서 볼 수 있는 것처럼 해당 리소스가 수행할 수 있는 연결된 활동이 있습니다.

컴퓨팅 환경	작업
주문형 HDInsight 클러스터 또는 사용자 고유의 HDInsight 클러스터	Hive, Pig, Spark, MapReduce, Hadoop 스트리밍
Azure Batch	사용자 지정 활동
Azure Machine Learning 스튜디오 머신	학습 작업: 일괄 처리 실행 및 리소스 업데이트
Azure Machine Learning	Azure Machine Learning 실행 파이프라인
Azure 데이터 레이크 분석	데이터 레이크 분석 U-SQL
Azure SQL, Azure SQL Data Warehouse, SQL Server	저장 프로시저
Azure Databricks	Notebook, Jar, Python
Azure Function	Azure 함수 작업

SSIS 패키지를 사용하여 데이터 수집

많은 조직에서 온-프레미스 및 클라우드 데이터 저장소의 수집 및 변환 논리를 모두 포함하는 SSIS(SQL Server Integration Services) 패키지에 수십 년 동안 개발 투자를 해왔습니다. Azure Data Factory는 기본적으로 SSIS 패키지를 실행하는 Azure-SSIS Integration Runtime을 만들어 기존 SSIS 워크로드를 전환하는 기능을 제공하며, 온-프레미스에서 SSIS를 사용하는 것처럼 SSDT(SQL Server Data Tools) 및 SSMS(SQL Server Management Studio)와 같은 익숙한 도구를 사용하여 별다른 변경 없이 기존 SSIS 패키지를 배포 및 관리할 수 있습니다.

계속

복사 작업을 사용하여 데이터 수집

컴퓨팅 리소스를 사용하여 데이터 수집

SSIS 패키지를 사용하여 데이터 수집

피드백