Transformación de datos mediante la actividad de streaming de Hadoop en Azure Data Factory o Synapse Analytics

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Data Factory en Microsoft Fabric es la próxima generación de Azure Data Factory, con una arquitectura más sencilla, inteligencia artificial integrada y nuevas características. Si no está familiarizado con la integración de datos, comience con Fabric Data Factory. Las cargas de trabajo de ADF existentes pueden actualizarse a Fabric para acceder a nuevas funcionalidades en ciencia de datos, análisis en tiempo real e informes.

La actividad de Hadoop Streaming en una canalización de Azure Data Factory o Synapse Analytics ejecuta programas de Hadoop Streaming en su propio clúster de HDInsight o en un clúster a petición. Este artículo se basa en el artículo sobre actividades de transformación de datos , que presenta información general de la transformación de datos y las actividades de transformación admitidas.

Para obtener más información, lea los artículos de introducción a Azure Data Factory y Synapse Analytics y realice la Tutorial: transformar datos antes de leer este artículo.

Adición de una actividad de transmisión de HDInsight a una canalización con interfaz de usuario

Para usar una actividad de streaming de HDInsight en una canalización, complete los pasos siguientes:

Busque Streaming en el panel Actividades de la canalización y arrastre una actividad de streaming al lienzo de la canalización.
Seleccione la nueva actividad de streaming en el lienzo si aún no está seleccionada.
Seleccione la pestaña Clúster de HDI para elegir o crear un nuevo servicio vinculado a un clúster de HDInsight que se usará para ejecutar la actividad de streaming.
Seleccione la pestaña Archivo para especificar los nombres de asignador y reductor para el trabajo de streaming y elija o cree un nuevo servicio vinculado a una cuenta de Azure Storage que asignará los archivos de asignador, reductor, entrada y salida del trabajo. También puede especificar detalles avanzados, como la configuración de depuración, los argumentos y los parámetros que se pasarán al trabajo.

Ejemplo de JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detalles de la sintaxis

Propiedad	Descripción	Obligatorio
nombre	Nombre de la actividad	Sí
descripción	Texto que describe para qué se usa la actividad.	No
tipo	En Hadoop Streaming Activity, el tipo de actividad es HDInsightStreaming	Sí
nombreDelServicioVinculado	Referencia al clúster de HDInsight registrado como servicio vinculado. Para obtener más información sobre este servicio vinculado, consulte el artículo Servicios vinculados de cómputo.	Sí
mapeador	Especifica el nombre del ejecutable del mapper	Sí
reductor	Especifica el nombre del archivo ejecutable del reductor	Sí
combinador	Especifica el nombre del archivo ejecutable del combinador	No
fileLinkedService	Referencia a un servicio vinculado de Azure Storage que se usa para almacenar los programas Mapper, Combiner y Reducer que se van a ejecutar. Aquí solo se admiten los servicios vinculados Azure Blob Storage y ADLS Gen2. Si no especifica este servicio vinculado, se usará el servicio vinculado de Azure Storage definido en el servicio vinculado de HDInsight.	No
ruta de archivo	Proporcione una matriz de rutas de acceso a los programas Mapper, Combiner y Reducer almacenados en la Azure Storage a la que hace referencia fileLinkedService. La ruta de acceso distingue mayúsculas de minúsculas.	Sí
entrada	Especifica la ruta de acceso WASB al archivo de entrada para el Mapeador.	Sí
output	Especifica la ruta de acceso de WASB al archivo de salida para el reductor.	Sí
getDebugInfo	Especifica cuándo se copian los archivos de registro en el Azure Storage usado por el clúster de HDInsight (o) especificado por scriptLinkedService. Valores permitidos: Ninguno, Siempre o Error. Valor predeterminado: Ninguno.	No
argumentos	Especifica una matriz de argumentos para un trabajo de Hadoop. Los argumentos se pasan a cada tarea como línea de comandos.	No
defines	Especifique parámetros como pares clave-valor para hacer referencia en el script de Hive.	No

Vea los siguientes artículos, en los que se explica cómo transformar datos de otras maneras:

Comentarios

¿Le resultó útil esta página?

Last updated on 2026-04-08