다음을 통해 공유


Azure Data Factory 또는 Synapse Analytics에서 Hadoop Pig 작업을 사용하여 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

Data Factory 파이프라인의 HDInsight Pig 작업은 사용자 고유 또는 주문형 HDInsight 클러스터의 Pig 쿼리를 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다.

자세한 내용은 Azure Data Factory 또는 Synapse Analytics 소개를 읽고 이 문서를 읽기 전에 자습서: 데이터 변환을 수행합니다.

UI를 사용하여 파이프라인에 HDInsight Pig 작업 추가

HDInsight Pig 작업을 파이프라인에 사용하려면 다음 단계를 완료합니다.

  1. 파이프라인 활동 창에서 Pig 를 검색하고 Pig 작업을 파이프라인 캔버스로 끌어옵니다.

  2. 아직 선택하지 않은 경우 캔버스에서 새 Pig 작업을 선택합니다.

  3. HDI 클러스터 탭을 선택하여 MapReduce 작업을 실행하는 데 사용할 HDInsight 클러스터에 연결된 새 서비스를 선택하거나 만듭니다.

    Shows the UI for a Pig activity.

  4. 스크립트 탭을 선택하여 스크립트가 호스트될 Azure Storage 위치에 연결된 새 스크립트 서비스를 선택하거나 만듭니다. 실행할 클래스 이름과 스토리지 위치 내의 파일 경로를 지정합니다. 디버깅 구성, 스크립트에 전달될 인수 및 매개 변수를 비롯한 고급 세부 정보를 구성할 수도 있습니다.

    Shows the UI for the Script tab for a Pig activity.

구문

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigSript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

구문 세부 정보

속성 설명 필수
name 작업의 이름
description 작업이 무엇에 사용되는지 설명하는 텍스트입니다. 아니요
type Hive 작업의 경우 작업 유형은 HDinsightPig입니다.
linkedServiceName 연결된 서비스로 등록된 HDInsight 클러스터에 대한 참조입니다. 이 연결된 서비스에 대한 자세한 내용은 컴퓨팅 연결 서비스 문서를 참조하세요.
scriptLinkedService 실행할 Pig 스크립트를 저장하는 데 사용되는 Azure Storage 연결된 서비스에 대한 참조입니다. 여기서는 Azure Blob StorageADLS Gen2 연결 서비스만 지원됩니다. 이 연결된 서비스를 지정하지 않으면 HDInsight 연결된 서비스에 정의된 Azure Storage 연결된 서비스가 사용됩니다. 아니요
scriptPath scriptLinkedService에서 참조하는 Azure Storage에 저장된 스크립트 파일의 경로를 제공합니다. 파일 이름은 대/소문자를 구분합니다. 아니요
getDebugInfo scriptLinkedService에 지정되었거나 HDInsight 클러스터에 사용된 Azure Storage에 로그 파일을 언제 복사할지 지정합니다. 허용되는 값: None, Always 또는 Failure. 기본값은 None입니다. 아니요
arguments Hadoop 작업에 대한 인수 배열을 지정합니다. 인수는 각 작업에 대한 명령줄 인수로 전달됩니다. 아니요
defines Pig 스크립트 내에서 참조하기 위해 매개 변수를 키/값 쌍으로 지정합니다. 아니요

다른 방법으로 데이터를 변환하는 방법을 설명하는 다음 문서를 참조하세요.