Azure Data Factory 변환 방법 설명

5분

Azure Data Factory는 데이터 수집을 위한 다양한 방법을 제공하는 것과 마찬가지로 변환을 수행하는 다양한 방법도 제공합니다. 따라서 팀의 기술 세트와 어울리는 방법을 선택하거나 데이터 자산에 이미 있는 기존 기술을 활용할 수 있습니다. 또한 매핑 데이터 흐름을 사용하여 코드를 전혀 작성하지 않고도 변환을 수행할 수도 있습니다.

매핑 데이터 흐름을 사용하여 데이터 변환

매핑 데이터 흐름은 코드를 사용할 필요 없이 광범위한 데이터 변환을 시각적으로 빌드할 수 있는 환경을 제공합니다. 생성된 결과 데이터 흐름은 차후에 매핑 데이터 흐름 실행 시 자동으로 프로비저닝되는 스케일 아웃된 Apache Spark 클러스터에서 실행됩니다. 또한 매핑 데이터 흐름은 변환의 진행 상황을 확인할 수 있도록 변환 실행을 모니터링하거나 발생할 수 있는 오류를 파악할 수 있는 기능도 제공합니다.

컴퓨팅 리소스를 사용하여 데이터 변환

또한 Azure Data Factory는 컴퓨팅 리소스를 호출하여 작업에 더 적합한 데이터 플랫폼 서비스를 통해 데이터를 변환할 수도 있습니다. 이에 대한 좋은 예를 들자면 Azure Data Factory가 Python을 사용하여 복잡한 계산을 수행하기 위해 Azure Synapse Analytics 인스턴스의 Spark 풀과 같은 분석 데이터 플랫폼에 대한 파이프라인을 만들 수 있다는 것입니다. 또 다른 예는 Transact-SQL을 사용하여 저장 프로시저를 실행하기 위해 Azure SQL Database 인스턴스로 데이터를 보내는 것입니다. 다음 표에 나와 있는 것처럼 매우 다양한 컴퓨팅 리소스 및 해당 리소스가 수행할 수 있는 관련 작업이 있습니다.

컴퓨팅 환경	작업
주문형 HDInsight 클러스터 또는 사용자 고유의 HDInsight 클러스터	Hive, Pig, Spark, MapReduce, Hadoop 스트리밍
Azure Batch	사용자 지정 활동
Azure Machine Learning 스튜디오 머신	학습 작업: 일괄 처리 실행 및 리소스 업데이트
Azure Machine Learning	Azure Machine Learning 실행 파이프라인
Azure 데이터 레이크 분석	데이터 레이크 분석 U-SQL
Azure SQL, Azure SQL Data Warehouse, SQL Server	저장 프로시저
Azure Databricks	Notebook, Jar, Python
Azure Function	Azure 함수 작업

SSIS(SQL Server Integration Services) 패키지를 사용하여 데이터 변환

많은 조직에서 온-프레미스 및 클라우드 데이터 저장소의 수집 및 변환 논리를 모두 포함하는 SSIS 패키지에 수십 년 동안 개발 투자를 해왔습니다. Azure Data Factory는 기본적으로 SSIS 패키지를 실행하는 Azure-SSIS Integration Runtime을 생성함으로써 기존 SSIS 워크로드를 리프트 앤 시프트하는 기능을 제공합니다. Azure-SSIS Integration Runtime을 사용하면 온-프레미스에서 SSIS를 사용하는 것처럼 SSDT(SQL Server Data Tools) 및 SSMS(SQL Server Management Studio)와 같은 친숙한 도구를 사용하여 거의 변경 없이 기존 SSIS 패키지를 배포하고 관리할 수 있습니다.

계속

매핑 데이터 흐름을 사용하여 데이터 변환

컴퓨팅 리소스를 사용하여 데이터 변환

SSIS(SQL Server Integration Services) 패키지를 사용하여 데이터 변환

피드백