Azure Data Factory 또는 Synapse Analytics에서 Hadoop Hive 작업을 사용하여 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

Azure Data Factory 또는 Synapse Analytics 파이프라인에서의 HDInsight Hive 작업은 사용자 고유 또는 주문형 HDInsight 클러스터에서 Hive 쿼리를 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다.

Azure Data Factory 및 Synapse Analytics를 새롭게 접하는 경우 Azure Data Factory 또는 Synapse Analytics에 대한 소개 문서를 읽고 이 문서를 읽기 전에 자습서: 데이터 변환을 수행합니다.

UI를 사용하여 파이프라인에 HDInsight Hive 작업 추가

파이프라인에서 Azure Data Lake Analytics에 HDInsight Hive 작업을 사용하려면 다음 단계를 완료합니다.

  1. 파이프라인 작업 창에서 Hive를 검색하고 Hive 작업을 파이프라인 캔버스로 끌어옵니다.

  2. 아직 선택되지 않은 경우 캔버스에서 새 Hive 작업을 선택합니다.

  3. HDI 클러스터 탭을 선택하여 Hive 작업을 실행하는 데 사용할 HDInsight 클러스터에 대한 새 연결된 서비스를 선택하거나 만듭니다.

    Shows the UI for a Hive activity.

  4. 스크립트 탭을 선택하여 새 스토리지 연결된 서비스 및 스크립트를 호스트할 스토리지 위치 내의 경로를 선택하거나 만듭니다.

    Shows the UI for the Script tab for a Hive activity.

구문

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

구문 세부 정보

속성 설명 필수
name 작업의 이름
description 작업이 무엇에 사용되는지 설명하는 텍스트입니다. 아니요
type Hive 작업의 경우 작업 유형은 HDinsightHive입니다.
linkedServiceName 연결된 서비스로 등록된 HDInsight 클러스터에 대한 참조입니다. 이 연결된 서비스에 대한 자세한 내용은 컴퓨팅 연결 서비스 문서를 참조하세요.
scriptLinkedService 실행할 Hive 스크립트를 저장하는 데 사용되는 Azure Storage 연결된 서비스에 대한 참조입니다. 여기서는 Azure Blob StorageADLS Gen2 연결 서비스만 지원됩니다. 이 연결된 서비스를 지정하지 않으면 HDInsight 연결된 서비스에 정의된 Azure Storage 연결된 서비스가 사용됩니다. 아니요
scriptPath scriptLinkedService에서 참조하는 Azure Storage에 저장된 스크립트 파일의 경로를 제공합니다. 파일 이름은 대/소문자를 구분합니다.
getDebugInfo scriptLinkedService에 지정되었거나 HDInsight 클러스터에 사용된 Azure Storage에 로그 파일을 언제 복사할지 지정합니다. 허용되는 값: None, Always 또는 Failure. 기본값은 None입니다. 아니요
arguments Hadoop 작업에 대한 인수 배열을 지정합니다. 인수는 각 작업에 대한 명령줄 인수로 전달됩니다. 아니요
defines Hive 스크립트 내에서 참조하기 위해 매개 변수를 키/값 쌍으로 지정합니다. 아니요
queryTimeout 쿼리 시간 제한 값(분)입니다. HDInsight 클러스터에서 Enterprise Security Package가 사용하도록 설정되어 있으면 적용됩니다. 아니요

참고 항목

queryTimeout의 기본값은 120분입니다.

다른 방법으로 데이터를 변환하는 방법을 설명하는 다음 문서를 참조하세요.