Преобразование данных с помощью действия Hadoop Pig в Azure Data Factory или Synapse Analytics

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Действие Pig HDInsight в Data Factory pipeline выполняет запросы Pig к вашему собственному кластеру HDInsight или к кластеру HDInsight по запросу. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования.

Перед чтением этой статьи следует ознакомиться с введением в Azure Data Factory или Synapse Analytics и выполните учебник: преобразование данных.

Добавление активности HDInsight Pig в конвейер через пользовательский интерфейс

Чтобы использовать в конвейере действие HDInsight Pig, выполните следующие действия:

  1. Выполните поиск Pig на панели Действия конвейера и перетащите действие Pig на холст конвейера.

  2. Активируйте новое действие Pig на холсте, если оно еще не активировано.

  3. Перейдите на вкладку Кластер HDI, чтобы выбрать или создать связанную службу для кластера HDInsight, которая будет использоваться для выполнения действия MapReduce.

    Отображает пользовательский интерфейс для действия

  4. Перейдите на вкладку Script, чтобы выбрать или создать новую связанную службу для расположения в Azure Storage, где будет размещен ваш скрипт. Укажите имя класса для выполнения и путь к файлу в месте хранения. Можно также настроить дополнительные сведения, в частности конфигурацию отладки, аргументы и параметры для отправки в скрипт.

    Отображает пользовательский интерфейс для вкладки

Синтаксис

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

Сведения о синтаксисе

Свойство Описание: Обязательное поле
имя Название деятельности. Да
описание Текст, описывающий, для чего используется действие Нет
тип Для действия Hive используется тип действия HDinsightPig. Да
linkedServiceName Ссылка на кластер HDInsight, зарегистрированный в качестве связанной службы. Чтобы узнать больше об этой связанной службе, см. статью Связанные службы вычислений. Да
scriptLinkedService Ссылка на связанную службу Azure Storage, используемую для хранения скрипта Pig для выполнения. Поддерживаются только Azure Blob Storage и ADLS Gen2 связанные службы. Если вы не укажете эту связанную службу, используется служба Azure Storage, определенная в связанной службе HDInsight. Нет
scriptPath Укажите путь к файлу скрипта, хранящимся в Azure Storage, на который ссылается scriptLinkedService. Имя файла чувствительно к регистру. Нет
getDebugInfo Указывает, когда файлы журналов копируются в Azure Storage, используемое кластером HDInsight или указанное с помощью scriptLinkedService. Допустимые значения: None (Нет), Always (Всегда) или Failure (Ошибка). Значение по умолчанию: None. Нет
аргументы Указывает массив аргументов для задания Hadoop. Аргументы передаются как аргументы командной строки в каждую задачу. Нет
определяет Указывайте параметры в виде пар "ключ-значение" для использования в скрипте Pig. Нет

Ознакомьтесь со следующими ссылками, в которых описаны способы преобразования данных другими способами: