Transformación de datos mediante la actividad de Hadoop Streaming en Azure Data Factory o Synapse Analytics

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. ¡Obtenga más información sobre cómo iniciar una nueva evaluación gratuita!

La actividad de Hadoop Streaming en una canalización de Azure Data Factory o Synapse Analytics ejecuta programas de Hadoop Streaming en su propio clúster de HDInsight o en un clúster a petición. Este artículo se basa en el artículo sobre actividades de transformación de datos , que presenta información general de la transformación de datos y las actividades de transformación admitidas.

Para obtener más información, vea los artículos de introducción a Azure Data Factory y Synapse Analytics y siga el tutorial de transformación de datos antes de leer este artículo.

Adición de una actividad de streaming de HDInsight a una canalización con la interfaz de usuario

Para usar una actividad de streaming de HDInsight en una canalización, complete los pasos siguientes:

  1. Busque Streaming en el panel Actividades de la canalización y arrastre una actividad de streaming al lienzo de la canalización.

  2. Seleccione la nueva actividad de streaming en el lienzo si aún no está seleccionada.

  3. Seleccione la pestaña Clúster de HDI para elegir o crear un nuevo servicio vinculado a un clúster de HDInsight que se usará para ejecutar la actividad de streaming.

    Shows the UI for a Streaming activity.

  4. Seleccione la pestaña Archivo para especificar los nombres de asignador y reductor para el trabajo de streaming y elija o cree un nuevo servicio vinculado a una cuenta de Azure Storage que asignará los archivos de asignador, reductor, entrada y salida del trabajo. También puede especificar detalles avanzados, como la configuración de depuración, los argumentos y los parámetros que se pasarán al trabajo.

    Shows the UI for the File tab for a Streaming activity.

Ejemplo de JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detalles de la sintaxis

Propiedad Descripción Obligatorio
name Nombre de la actividad
description Texto que describe para qué se usa la actividad. No
type En Hadoop Streaming Activity, el tipo de actividad es HDInsightStreaming
linkedServiceName Referencia al clúster de HDInsight registrado como servicio vinculado. Para obtener más información sobre este servicio vinculado, vea el artículo Compute linked services (Servicios vinculados de procesos).
mapper Especifica el nombre del archivo ejecutable del asignador
reducer Especifica el nombre del archivo ejecutable del reductor
combiner Especifica el nombre del archivo ejecutable del combinador No
fileLinkedService Referencia a un servicio vinculado de Azure Storage que se usa para almacenar los programas Asignador, Combinador y Reductor que se van a ejecutar. En este caso solo se admiten servicios vinculados a Azure Blob Storage y ADLS Gen2 . Si no se especifica este servicio vinculado, se usará el servicio vinculado de Azure Storage definido en el servicio vinculado de HDInsight. No
filePath Proporcione una matriz de ruta de acceso a los programas Asignador, Combinador y Reductor almacenados en el almacenamiento de Azure Storage al que fileLinkedService hace referencia. La ruta de acceso distingue mayúsculas de minúsculas.
input Especifica la ruta de acceso de WASB al archivo de entrada para el asignador.
output Especifica la ruta de acceso de WASB al archivo de salida para el reductor.
getDebugInfo Especifica si se copian los archivos de registro en el almacenamiento de Azure Storage que usa el clúster de HDInsight o que está especificado por scriptLinkedService. Valores permitidos: Ninguno, Siempre o Error. Valor predeterminado: Ninguno. No
argumentos Especifica una matriz de argumentos para un trabajo de Hadoop. Los argumentos se pasan a cada tarea como argumentos de la línea de comandos. No
defines Especifique parámetros como pares clave-valor para hacer referencia en el script de Hive. No

Vea los siguientes artículos, en los que se explica cómo transformar datos de otras maneras: