Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
ПРИМЕНИМО К:
Azure Data Factory
Azure Synapse Analytics
Совет
Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.
Действие Pig HDInsight в Data Factory pipeline выполняет запросы Pig к вашему собственному кластеру HDInsight или к кластеру HDInsight по запросу. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования.
Перед чтением этой статьи следует ознакомиться с введением в Azure Data Factory или Synapse Analytics и выполните учебник: преобразование данных.
Добавление активности HDInsight Pig в конвейер через пользовательский интерфейс
Чтобы использовать в конвейере действие HDInsight Pig, выполните следующие действия:
Выполните поиск Pig на панели Действия конвейера и перетащите действие Pig на холст конвейера.
Активируйте новое действие Pig на холсте, если оно еще не активировано.
Перейдите на вкладку Кластер HDI, чтобы выбрать или создать связанную службу для кластера HDInsight, которая будет использоваться для выполнения действия MapReduce.
Перейдите на вкладку Script, чтобы выбрать или создать новую связанную службу для расположения в Azure Storage, где будет размещен ваш скрипт. Укажите имя класса для выполнения и путь к файлу в месте хранения. Можно также настроить дополнительные сведения, в частности конфигурацию отладки, аргументы и параметры для отправки в скрипт.
Синтаксис
{
"name": "Pig Activity",
"description": "description",
"type": "HDInsightPig",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Сведения о синтаксисе
| Свойство | Описание: | Обязательное поле |
|---|---|---|
| имя | Название деятельности. | Да |
| описание | Текст, описывающий, для чего используется действие | Нет |
| тип | Для действия Hive используется тип действия HDinsightPig. | Да |
| linkedServiceName | Ссылка на кластер HDInsight, зарегистрированный в качестве связанной службы. Чтобы узнать больше об этой связанной службе, см. статью Связанные службы вычислений. | Да |
| scriptLinkedService | Ссылка на связанную службу Azure Storage, используемую для хранения скрипта Pig для выполнения. Поддерживаются только Azure Blob Storage и ADLS Gen2 связанные службы. Если вы не укажете эту связанную службу, используется служба Azure Storage, определенная в связанной службе HDInsight. | Нет |
| scriptPath | Укажите путь к файлу скрипта, хранящимся в Azure Storage, на который ссылается scriptLinkedService. Имя файла чувствительно к регистру. | Нет |
| getDebugInfo | Указывает, когда файлы журналов копируются в Azure Storage, используемое кластером HDInsight или указанное с помощью scriptLinkedService. Допустимые значения: None (Нет), Always (Всегда) или Failure (Ошибка). Значение по умолчанию: None. | Нет |
| аргументы | Указывает массив аргументов для задания Hadoop. Аргументы передаются как аргументы командной строки в каждую задачу. | Нет |
| определяет | Указывайте параметры в виде пар "ключ-значение" для использования в скрипте Pig. | Нет |
Связанный контент
Ознакомьтесь со следующими ссылками, в которых описаны способы преобразования данных другими способами: