Azure Data Factory 및 Azure Synapse Analytics 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

팁

Microsoft Fabric의 데이터 팩토리는 더 간단한 아키텍처, 기본 제공 AI 및 새로운 기능을 갖춘 차세대 Azure 데이터 팩토리입니다. 데이터 통합을 접하는 경우 Fabric Data Factory부터 시작합니다. 기존 ADF 워크로드는 Fabric 업그레이드하여 데이터 과학, 실시간 분석 및 보고 전반에 걸쳐 새로운 기능에 액세스할 수 있습니다.

Fabric 무료 평가판을 시작합니다.
Microsoft Fabric의 Data Factory로 Azure Data Factory를 업그레이드합니다

중요한

Azure Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새 Machine Learning Studio(클래식) 리소스(작업 영역 및 웹 서비스 계획)를 만들 수 없습니다. 2024년 8월 31일까지 기존 Machine Learning Studio(클래식) 실험 및 웹 서비스를 계속 사용할 수 있습니다. 자세한 내용은 다음을 참조하세요.

Machine Learning Studio(클래식)에서 Azure Machine Learning
Azure Machine Learning이란 무엇인가요?

Machine Learning Studio(클래식) 설명서는 사용 중지되고 있으며 나중에 업데이트되지 않을 수 있습니다.

개요

이 문서에서는 원시 데이터를 대규모 예측 및 인사이트로 변환하고 처리하는 데 사용할 수 있는 Azure Data Factory 및 Synapse 파이프라인의 데이터 변환 활동에 대해 설명합니다. 변환 작업은 Azure Databricks 또는 Azure HDInsight 같은 컴퓨팅 환경에서 실행됩니다. 각 변환 작업에 대한 자세한 정보가 있는 문서에 대한 링크를 제공합니다.

이 서비스는 개별적으로 또는 다른 작업과 연계하여 파이프라인에 추가할 수 있는 다음 데이터 변환 작업을 지원합니다.

Azure Data Factory와 Azure Synapse Analytics에서 데이터 흐름을 사용하여 기본적으로 변환하십시오.

데이터 흐름 매핑

매핑 데이터 흐름은 Azure Data Factory 및 Azure Synapse 시각적으로 디자인된 데이터 변환입니다. 데이터 흐름을 통해 데이터 엔지니어는 코드를 작성하지 않고도 그래픽 데이터 변환 논리를 개발할 수 있습니다. 결과 데이터 흐름은 스케일 아웃된 Spark 클러스터를 사용하는 파이프라인 내에서 작업으로 실행됩니다. 데이터 흐름 작업은 서비스 내에서 기존 일정, 제어, 흐름, 모니터링 기능을 통해 운영화될 수 있습니다. 자세한 내용은 매핑 데이터 흐름을 참조하세요.

데이터 조작 및 정리

Azure Data Factory 파워 쿼리 클라우드 규모 데이터 랭글링을 사용하면 클라우드 규모에서 코드 없는 데이터 준비를 반복적으로 수행할 수 있습니다. 데이터 랭글링은 파워 쿼리 Online 통합되며 spark 실행을 통해 클라우드 규모에서 데이터 랭글링에 파워 쿼리 M 함수를 사용할 수 있습니다. 자세한 내용은 Azure Data Factory.

참고

파워 쿼리 현재 Azure Data Factory만 지원되며 Azure Synapse 지원되지 않습니다. 각 서비스에서 지원되는 특정 기능 목록은 Azure Data Factory 및 Azure Synapse Analytics 파이프라인의 사용 가능한 기능을 참조하세요.

외부 변환

필요에 따라 변환을 직접 코딩하고 외부 컴퓨팅 환경을 직접 관리할 수 있습니다.

HDInsight Hive 활동

파이프라인의 HDInsight Hive 작업은 사용자 고유 또는 주문형 Windows/Linux 기반 HDInsight 클러스터에서 Hive 쿼리를 실행합니다. 이 작업에 대한 자세한 내용은 Hive 작업 문서를 참조하세요.

HDInsight Pig 작업

파이프라인의 HDInsight Pig 작업은 Windows/Linux 기반의 자체 HDInsight 클러스터나 주문형 클러스터에서 Pig 쿼리를 실행합니다. 이 활동에 대한 자세한 내용은 Pig 활동 문서를 참조하세요.

HDInsight MapReduce 작업

파이프라인의 HDInsight MapReduce 작업은 사용자 고유 또는 주문형 Windows/Linux 기반 HDInsight 클러스터에서 MapReduce 프로그램을 실행합니다. 이 작업에 대한 자세한 내용은 MapReduce 작업 문서를 참조하세요.

HDInsight 스트리밍 작업

파이프라인의 HDInsight 스트리밍 작업은 사용자 고유 또는 주문형 Windows/Linux 기반 HDInsight 클러스터에서 Hadoop 스트리밍 프로그램을 실행합니다. 이 작업에 대한 자세한 내용은 HDInsight 스트리밍 작업을 참조하세요.

HDInsight Spark 작업

파이프라인의 HDInsight Spark 작업은 사용자 고유 HDInsight 클러스터에서 Spark 프로그램을 실행합니다. 자세한 내용은 Azure Data Factory 또는 Azure Synapse Analytics 참조하세요.

ML 스튜디오(클래식) 작업

중요한

Azure Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning로 전환하는 것이 좋습니다.

Machine Learning Studio(클래식)에서 Azure Machine Learning
Azure Machine Learning이란 무엇인가요?

Machine Learning Studio(클래식) 설명서는 사용 중지되고 있으며 나중에 업데이트되지 않을 수 있습니다.

이 서비스를 사용하면 예측 분석을 위해 게시된 ML 스튜디오(클래식) 웹 서비스를 사용하는 파이프라인을 쉽게 만들 수 있습니다. 파이프라인에서 Batch Execution 작업을 사용하면 Studio(클래식) 웹 서비스를 호출하여 데이터를 일괄적으로 예측할 수 있습니다.

시간이 지남에 따라 Studio(클래식) 점수 매기기 실험의 예측 모델은 새 입력 데이터 세트를 사용하여 다시 학습되어야 합니다. 재학습으로 완료한 후에는 재학습한 Machine Learning 모델로 점수 매기기 웹 서비스를 업데이트하려고 합니다. 업데이트 리소스 작업을 사용하여 새로 학습된 모델로 웹 서비스를 업데이트합니다.

이러한 Studio(클래식) 작업에 대한 자세한 내용은 ML Studio(클래식) 작업 사용을 참조하세요.

저장 프로시저 작업

Data Factory 파이프라인에서 SQL Server 저장 프로시저 작업을 사용하여 엔터프라이즈의 Azure SQL Database, Azure Synapse Analytics, SQL Server 데이터베이스 또는 Azure VM 중 하나에서 저장 프로시저를 호출할 수 있습니다. 자세한 내용은 저장 프로시저 작업 문서를 참조하세요.

Azure Synapse Notebook 활동

Azure Synapse 파이프라인의 Azure Synapse Notebook 활동은 Azure Synapse 작업 영역 내에서 Synapse Notebook을 실행합니다. Azure Synapse Notebook 실행하여 데이터 전송을 참조하세요.

Databricks Notebook 활동

파이프라인의 Azure Databricks Notebook 작업은 Azure Databricks 작업 영역에서 Databricks Notebook을 실행합니다. Azure Databricks Apache Spark를 실행하기 위한 관리되는 플랫폼입니다. Databricks Notebook을 실행하여 데이터 변환을 참조하세요.

Databricks Jar 활동

파이프라인의 Azure Databricks Jar 작업은 Azure Databricks 클러스터에서 Spark Jar를 실행합니다. Azure Databricks Apache Spark를 실행하기 위한 관리되는 플랫폼입니다. Azure Databricks에서 Jar 활동을 실행하여 데이터를 변환하기를 참조하세요.

Databricks Python 작업

파이프라인의 Azure Databricks Python 작업은 Azure Databricks 클러스터에서 Python 파일을 실행합니다. Azure Databricks Apache Spark를 실행하기 위한 관리되는 플랫폼입니다. Azure Databricks에서 Python 작업을 실행하여 Transform 데이터를 참조하세요.

사용자 지정 활동

Data Factory에서 지원되지 않는 방식으로 데이터를 변환해야 하는 경우 고유의 데이터 이동 논리가 포함된 사용자 지정 작업을 만들어서 파이프라인에 해당 작업을 사용할 수 있습니다. Azure Batch 서비스 또는 Azure HDInsight 클러스터를 사용하여 실행되도록 사용자 지정 .NET 작업을 구성할 수 있습니다. 자세한 내용은 사용자 지정 작업 사용 문서를 참조하세요.

R이 설치된 HDInsight 클러스터에서 R 스크립트를 실행하는 사용자 지정 작업을 만들 수 있습니다. Azure Data Factory 및 Synapse 파이프라인을 사용하여 R 스크립트 실행 참조하세요.

컴퓨팅 환경

컴퓨팅 환경을 위한 연결된 서비스를 만들고 변환 작업을 정의할 때 이 연결된 서비스를 사용합니다. 지원되는 컴퓨팅 환경은 두 가지 유형이 있습니다.

주문형: 이 경우 컴퓨팅 환경은 서비스에서 완전 관리됩니다. 작업을 제출하여 데이터를 처리하기 전에 서비스에서 자동으로 생성되며, 작업이 완료되면 제거됩니다. 작업 실행, 클러스터 관리, 부트스트래핑 작업에 대한 주문형 컴퓨팅 환경의 세부적인 설정을 구성 및 제어할 수 있습니다.
자체 환경 사용: 이 경우 사용자 고유의 컴퓨팅 환경(예: HDInsight 클러스터)을 연결된 서비스로 등록할 수 있습니다. 컴퓨팅 환경은 사용자가 관리하며, 서비스는 이를 사용하여 작업을 실행합니다.

지원되는 컴퓨팅 서비스에 관한 자세한 내용은 컴퓨팅 연결된 서비스 문서를 참조하세요.

변환 작업 사용 예제에 대해서는 자습서: Spark를 사용하여 데이터 변환을 참조하세요.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-06-03