Azure Data Factory 및 Azure Synapse Analytics에서 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

Important

Azure Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새 Machine Learning Studio(클래식) 리소스(작업 영역 및 웹 서비스 계획)를 만들 수 없습니다. 2024년 8월 31일까지 기존 Machine Learning Studio(클래식) 실험 및 웹 서비스를 계속 사용할 수 있습니다. 자세한 내용은 다음을 참조하세요.

Machine Learning Studio(클래식) 설명서는 사용 중지 중이며 나중에 업데이트되지 않을 수 있습니다.

개요

이 문서에서는 원시 데이터를 대규모로 예측하고 인사이트로 변환하고 처리하는 데 사용할 수 있는 Azure Data Factory 및 Synapse 파이프라인의 데이터 변환 작업을 설명합니다. 변환 작업은 Azure Databricks 또는 Azure HDInsight 클러스터와 같은 컴퓨팅 환경에서 실행됩니다. 각 변환 작업에 대한 자세한 정보가 있는 문서에 대한 링크를 제공합니다.

이 서비스는 개별적으로 또는 다른 작업과 연계하여 파이프라인에 추가할 수 있는 다음 데이터 변환 작업을 지원합니다.

데이터 흐름을 사용하여 Azure Data Factory 및 Azure Synapse Analytics에서 기본적으로 변환

데이터 흐름 매핑

매핑 데이터 흐름은 Azure Data Factory와 Azure Synapse에서 시각적으로 디자인된 데이터 변환입니다. 데이터 흐름을 통해 데이터 엔지니어는 코드를 작성하지 않고도 그래픽 데이터 변환 논리를 개발할 수 있습니다. 결과 데이터 흐름은 스케일 아웃된 Spark 클러스터를 사용하는 파이프라인 내에서 작업으로 실행됩니다. 데이터 흐름 작업은 서비스 내에서 기존 일정, 제어, 흐름, 모니터링 기능을 통해 운영화될 수 있습니다. 자세한 내용은 매핑 데이터 흐름을 참조하세요.

데이터 랭글링

Azure Data Factory의 Power Query는 클라우드 규모의 데이터 랭글링을 활성화하여 클라우드 규모의 코드 없는 데이터 준비를 반복적으로 수행할 수 있습니다. 데이터 랭글링은 Power Query Online과 통합되며 Spark 실행을 통해 클라우드 규모의 데이터 랭글링에 Power Query M 함수를 사용할 수 있습니다. 자세한 내용은 Azure Data Factory의 데이터 랭글링을 참조하세요.

참고 항목

파워 쿼리는 현재 Azure Synapse가 아닌 Azure Data Factory에서만 지원됩니다. 각 서비스에서 지원되는 특정 기능 목록은 Azure Data Factory 및 Azure Synapse Analytics 파이프라인에서 사용 가능한 기능을 참조하세요.

외부 변환

필요에 따라 변환을 직접 코딩하고 외부 컴퓨팅 환경을 직접 관리할 수 있습니다.

HDInsight Hive 작업

파이프라인의 HDInsight Hive 작업은 사용자 고유 또는 주문형 Windows/Linux 기반 HDInsight 클러스터에서 Hive 쿼리를 실행합니다. 이 작업에 대한 자세한 내용은 Hive 작업 문서를 참조하세요.

HDInsight Pig 작업

파이프라인의 HDInsight Pig 작업은 사용자 고유 또는 주문형 Windows/Linux 기반 HDInsight 클러스터에서 Pig 쿼리를 실행합니다. 이 작업에 대한 자세한 내용은 Pig 작업 문서를 참조하세요.

HDInsight MapReduce 작업

파이프라인의 HDInsight MapReduce 작업은 사용자 고유 또는 주문형 Windows/Linux 기반 HDInsight 클러스터에서 MapReduce 프로그램을 실행합니다. 이 작업에 대한 자세한 내용은 MapReduce 작업 문서를 참조하세요.

HDInsight 스트리밍 작업

파이프라인의 HDInsight 스트리밍 작업은 사용자 고유 또는 주문형 Windows/Linux 기반 HDInsight 클러스터에서 Hadoop 스트리밍 프로그램을 실행합니다. 이 작업에 대한 자세한 내용은 HDInsight 스트리밍 작업을 참조하세요.

HDInsight Spark 작업

파이프라인의 HDInsight Spark 작업은 사용자 고유 HDInsight 클러스터에서 Spark 프로그램을 실행합니다. 자세한 내용은 Azure Data Factory 또는 Azure Synapse Analytics를 사용하여 Spark 프로그램 호출을 참조하세요.

ML 스튜디오(클래식) 작업

Important

Azure Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새 Machine Learning Studio(클래식) 리소스(작업 영역 및 웹 서비스 계획)를 만들 수 없습니다. 2024년 8월 31일까지 기존 Machine Learning Studio(클래식) 실험 및 웹 서비스를 계속 사용할 수 있습니다. 자세한 내용은 다음을 참조하세요.

Machine Learning Studio(클래식) 설명서는 사용 중지 중이며 나중에 업데이트되지 않을 수 있습니다.

이 서비스를 사용하면 예측 분석을 위해 게시된 ML 스튜디오(클래식) 웹 서비스를 사용하는 파이프라인을 쉽게 만들 수 있습니다. 파이프라인에서 Batch Execution 작업을 사용하면 Studio(클래식) 웹 서비스를 호출하여 데이터를 일괄적으로 예측할 수 있습니다.

시간이 지남에 따라 Studio(클래식) 점수 매기기 실험의 예측 모델은 새 입력 데이터 세트를 사용하여 다시 학습되어야 합니다. 재학습으로 완료한 후에는 재학습한 Machine Learning 모델로 점수 매기기 웹 서비스를 업데이트하려고 합니다. 업데이트 리소스 작업을 사용하여 새로 학습된 모델로 웹 서비스를 업데이트합니다.

이러한 Studio(클래식) 작업에 대한 자세한 내용은 ML Studio(클래식) 작업 사용을 참조하세요.

저장 프로시저 작업

Data Factory 파이프라인에서 SQL Server 저장 프로시저 작업을 사용하여 엔터프라이즈 또는 Azure VM의 Azure SQL Database, Azure Synapse Analytics, SQL Server Database의 데이터 저장소 중 하나에서 저장 프로시저를 호출할 수 있습니다. 자세한 내용은 저장 프로시저 작업 문서를 참조하세요.

Data Lake Analytics U-SQL 작업

Data Lake Analytics U-SQL 작업은 Azure Data Lake Analytics 클러스터에 대해 U-SQL 스크립트를 실행합니다. 자세한 내용은 Data Analytics U-SQL 작업 문서를 참조하세요.

Azure Synapse Notebook 작업

Synapse 파이프라인의 Azure Synapse Notebook 작업은 Azure Synapse 작업 영역에서 Synapse Notebook을 실행합니다. Azure Synapse Notebook을 실행하여 데이터 변환을 참조하세요.

Databricks Notebook 활동

파이프라인의 Azure Databricks Notebook 작업은 Azure Databricks 작업 영역에서 Databricks Notebook을 실행합니다. Azure Databricks는 Apache Spark를 실행하기 위해 관리되는 플랫폼입니다. Databricks Notebook을 실행하여 데이터 변환을 참조하세요.

Databricks Jar 활동

파이프라인의 Azure Databricks Jar 작업은 Azure Databricks 클러스터에서 Spark Jar를 실행합니다. Azure Databricks는 Apache Spark를 실행하기 위해 관리되는 플랫폼입니다. Azure Databricks에서 Jar 활동을 실행하여 데이터 변환을 참조하세요.

Databricks Python 활동

파이프라인의 Azure Databricks Python 작업은 Azure Databricks 클러스터에서 Python 파일을 실행합니다. Azure Databricks는 Apache Spark를 실행하기 위해 관리되는 플랫폼입니다. Azure Databricks에서 Python 활동을 실행하여 데이터 변환을 참조하세요.

사용자 지정 활동

Data Factory에서 지원되지 않는 방식으로 데이터를 변환해야 하는 경우 고유의 데이터 이동 논리가 포함된 사용자 지정 작업을 만들어서 파이프라인에 해당 작업을 사용할 수 있습니다. Azure Batch 서비스 또는 Azure HDInsight 클러스터를 사용하여 실행되도록 사용자 지정 .NET 작업을 구성할 수 있습니다. 자세한 내용은 사용자 지정 작업 사용 문서를 참조하세요.

R이 설치된 HDInsight 클러스터에서 R 스크립트를 실행하는 사용자 지정 작업을 만들 수 있습니다. Azure Data Factory 및 Synapse 파이프라인을 사용하여 R 스크립트 실행을 참조하세요.

컴퓨팅 환경

컴퓨팅 환경을 위한 연결된 서비스를 만들고 변환 작업을 정의할 때 이 연결된 서비스를 사용합니다. 지원되는 컴퓨팅 환경은 두 가지 유형이 있습니다.

  • 주문형: 이 경우 컴퓨팅 환경은 서비스에서 완전 관리됩니다. 데이터를 처리하기 위한 작업을 제출하기 전에 서비스에서 자동으로 컴퓨팅 환경을 만들고 작업이 완료되면 제거합니다. 작업 실행, 클러스터 관리, 부트스트래핑 작업에 대한 주문형 컴퓨팅 환경의 세부적인 설정을 구성 및 제어할 수 있습니다.
  • 자체 환경 사용: 이 경우 사용자 고유의 컴퓨팅 환경(예: HDInsight 클러스터)을 연결된 서비스로 등록할 수 있습니다. 컴퓨팅 환경은 이를 사용하여 작업을 실행하는 서비스와 사용자에 의해 관리됩니다.

지원되는 컴퓨팅 서비스에 관한 자세한 내용은 컴퓨팅 연결된 서비스 문서를 참조하세요.

변환 작업 사용 예제에 대해서는 자습서: Spark를 사용하여 데이터 변환을 참조하세요.