Transformer des données à l’aide de l’activité De streaming Hadoop dans Azure Data Factory ou Synapse Analytics

S'APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Data Factory dans Microsoft Fabric est la prochaine génération de Azure Data Factory, avec une architecture plus simple, une IA intégrée et de nouvelles fonctionnalités. Si vous débutez avec l'intégration des données, commencez par Fabric Data Factory. Les charges de travail ADF existantes peuvent être mises à niveau vers Fabric pour accéder à de nouvelles fonctionnalités dans la science des données, l’analytique en temps réel et la création de rapports.

L'activité de diffusion en continu HDInsight dans un pipeline Azure Data Factory ou Synapse Analytics exécute des programmes de diffusion en continu Hadoop sur votre cluster HDInsight propre ou à la demande. Cet article s'appuie sur l'article Activités de transformation des données qui présente une vue d'ensemble de la transformation des données et les activités de transformation prises en charge.

Pour en savoir plus, lisez les articles d’introduction à Azure Data Factory et Synapse Analytics et effectuez les Tutorial : transformer des données avant de lire cet article.

Ajouter une activité HDInsight Streaming à un pipeline avec une IU

Pour utiliser une activité de HDInsight Streaming dans un pipeline, procédez comme suit :

Recherchez Streaming dans le volet Activités du pipeline, puis faites glisser une activité Streaming vers le canevas du pipeline.
Sélectionnez la nouvelle activité Streaming sur le canevas si elle n’est pas déjà sélectionnée.
Sélectionnez l’onglet Cluster HDI pour sélectionner ou créer un nouveau service lié à un cluster HDInsight qui sera utilisé pour exécuter l’activité Streaming.
Sélectionnez l’onglet File pour spécifier les noms du mappeur et du réducteur pour votre travail de diffusion en continu, puis sélectionnez ou créez un service lié à un compte Azure Storage qui sera le mappeur, le réducteur, l’entrée et les fichiers de sortie du travail. Vous pouvez également configurer des détails avancés, notamment une configuration de débogage, ainsi que des arguments et des paramètres à transmettre à la tâche.

Exemple JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Détails de la syntaxe

Propriété	Description	Obligatoire
nom	Nom de l’activité	Oui
description	Texte décrivant la raison motivant l’activité.	Non
type	Pour l’activité de diffusion en continu Hadoop, le type d’activité est HDInsightStreaming.	Oui
linkedServiceName	Référence au cluster HDInsight enregistré en tant que service lié. Pour en savoir plus sur ce service lié, consultez l’article Services liés de calcul.	Oui
mappeur	Spécifie le nom de l’exécutable du mappeur.	Oui
réducteur	Spécifie le nom de l’exécutable du raccord de réduction.	Oui
combinateur	Spécifie le nom de l’exécutable du combinateur.	Non
fileLinkedService	Référence à un service lié Azure Storage utilisé pour stocker les programmes Mapper, Combiner et Reducer à exécuter. Seuls Azure Blob Storage et ADLS Gen2 services liés sont pris en charge ici. Si vous ne spécifiez pas ce service lié, le service lié Azure Storage défini dans le service lié HDInsight est utilisé.	Non
chemin de fichier	Fournissez un tableau de chemins d’accès aux programmes Mapper, Combiner et Reducer stockés dans le Azure Storage référencé par fileLinkedService. Le chemin d'accès respecte la casse.	Oui
entrée	Spécifie le chemin WASB vers le fichier d’entrée du mappeur.	Oui
sortie	Spécifie le chemin WASB vers le fichier de sortie pour le réducteur.	Oui
getDebugInfo	Spécifie quand les fichiers journaux sont copiés dans le Azure Storage utilisé par le cluster HDInsight (ou) spécifié par scriptLinkedService. Valeurs autorisées : Aucune, Toujours ou Échec. Valeur par défaut : Aucun.	Non
arguments	Spécifie un tableau d’arguments pour un travail Hadoop. Les arguments sont passés en tant qu'arguments de ligne de commande pour chaque tâche.	Non
defines	Spécifier les paramètres sous forme de paires clé/valeur pour le référencement au sein du script Hive.	Non

Consultez les articles suivants qui expliquent comment transformer des données par d’autres moyens :

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-22

Partager via

Transformer des données à l’aide de l’activité De streaming Hadoop dans Azure Data Factory ou Synapse Analytics

Ajouter une activité HDInsight Streaming à un pipeline avec une IU

Exemple JSON

Détails de la syntaxe

Contenu connexe

Commentaires

Ressources supplémentaires