Transformación de datos mediante la actividad Pig de Hadoop en Azure Data Factory o Synapse Analytics

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. ¡Obtenga más información sobre cómo iniciar una nueva evaluación gratuita!

La actividad Pig de HDInsight en una canalización de Data Factory ejecuta consultas de Pig en su propio clúster de HDInsight o en uno a petición. Este artículo se basa en el artículo sobre actividades de transformación de datos , que presenta información general de la transformación de datos y las actividades de transformación admitidas.

Para obtener más información, vea la introducción a Azure Data Factory o Synapse Analytics y siga el tutorial de transformación de datos antes de leer este artículo.

Adición de una actividad de Pig de HDInsight a una canalización con la interfaz de usuario

Para usar una actividad de Pig de HDInsight en una canalización, complete los pasos siguientes:

  1. Busque Pig en el panel Actividades de canalización y arrastrar una actividad de Pig al lienzo de la canalización.

  2. Seleccione la nueva actividad de Pig en el lienzo si aún no está seleccionada.

  3. Seleccione la pestaña Clúster de HDI para elegir o crear un nuevo servicio vinculado a un clúster de HDInsight que se usará para ejecutar la actividad MapReduce.

    Shows the UI for a Pig activity.

  4. Seleccionar la pestaña Script para elegir o crear un nuevo servicio vinculado de script en una ubicación de Azure Storage en la que se hospedará el script. Especifique el nombre de clase que se va a ejecutar en esa ubicación y una ruta de acceso de archivo dentro de la ubicación de almacenamiento. También puede configurar detalles avanzados, como la configuración de depuración o los argumentos y parámetros que se pasarán al script.

    Shows the UI for the Script tab for a Pig activity.

Sintaxis

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigSript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

Detalles de la sintaxis

Propiedad Descripción Obligatorio
name Nombre de la actividad
description Texto que describe para qué se usa la actividad. No
type Para la actividad de Hive, el tipo de actividad es HDinsightPig
linkedServiceName Referencia al clúster de HDInsight registrado como servicio vinculado. Para obtener más información sobre este servicio vinculado, vea el artículo Compute linked services (Servicios vinculados de procesos).
scriptLinkedService Referencia a un servicio vinculado de Azure Storage que se utiliza para almacenar el script de Pig que se va a ejecutar. En este caso solo se admiten servicios vinculados a Azure Blob Storage y ADLS Gen2 . Si no se especifica este servicio vinculado, se usará el servicio vinculado de Azure Storage definido en el servicio vinculado de HDInsight. No
scriptPath Proporcione la ruta de acceso al archivo de script almacenado en Azure Storage al que hace referencia scriptLinkedService. El nombre del archivo distingue mayúsculas de minúsculas. No
getDebugInfo Especifica si se copian los archivos de registro en el almacenamiento de Azure Storage que usa el clúster de HDInsight o que está especificado por scriptLinkedService. Valores permitidos: Ninguno, Siempre o Error. Valor predeterminado: Ninguno. No
argumentos Especifica una matriz de argumentos para un trabajo de Hadoop. Los argumentos se pasan a cada tarea como argumentos de la línea de comandos. No
defines Especifique los parámetros como pares de clave y valor para referencia en el script de Pig. No

Vea los siguientes artículos, en los que se explica cómo transformar datos de otras maneras: