Transformer des données à l'aide d'une activité de diffuser en continu Hadoop dans Azure Data Factory ou Synapse Analytics

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

L'activité de diffusion en continu HDInsight dans un pipeline Azure Data Factory ou Synapse Analytics exécute des programmes de diffusion en continu Hadoop sur votre cluster HDInsight propre ou à la demande. Cet article s'appuie sur l'article Activités de transformation des données qui présente une vue d'ensemble de la transformation des données et les activités de transformation prises en charge.

Pour en savoir plus, avant de lire cet article, consultez l'introduction à Azure Data Factory ou Synapse Analytics, puis suivez le Didacticiel : Transformer des données.

Ajouter une activité HDInsight Streaming à un pipeline avec une IU

Pour utiliser une activité de HDInsight Streaming dans un pipeline, procédez comme suit :

  1. Recherchez Streaming dans le volet Activités du pipeline, puis faites glisser une activité Streaming vers le canevas du pipeline.

  2. Sélectionnez la nouvelle activité Streaming sur le canevas si elle n’est pas déjà sélectionnée.

  3. Sélectionnez l’onglet Cluster HDI pour sélectionner ou créer un nouveau service lié à un cluster HDInsight qui sera utilisé pour exécuter l’activité Streaming.

    Shows the UI for a Streaming activity.

  4. Sélectionnez l’onglet Fichier pour spécifier les noms de mappeur et de réducteur pour votre tâche de diffusion en continu, puis sélectionnez ou créez un nouveau service lié à un compte de stockage Azure qui utilisera les fichiers de mappage, de réducteur, d’entrée et de sortie pour la tâche. Vous pouvez également configurer des détails avancés, notamment une configuration de débogage, ainsi que des arguments et des paramètres à transmettre à la tâche.

    Shows the UI for the File tab for a Streaming activity.

Exemple JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Détails de la syntaxe

Propriété Description Obligatoire
name Nom de l’activité Oui
description Texte décrivant la raison motivant l’activité. Non
type Pour l’activité de diffusion en continu Hadoop, le type d’activité est HDInsightStreaming. Oui
linkedServiceName Référence au cluster HDInsight enregistré en tant que service lié. Pour en savoir plus sur ce service lié, consultez l’article Services liés de calcul. Oui
mappeur Spécifie le nom de l’exécutable du mappeur. Oui
raccord de réduction Spécifie le nom de l’exécutable du raccord de réduction. Oui
combinateur Spécifie le nom de l’exécutable du combinateur. Non
fileLinkedService Référence à un service lié de stockage Azure utilisée pour stocker les programmes du mappeur, du combinateur et du raccord de réduction à exécuter. Seuls les services liés Stockage Blob Azure et ADLS Gen2 sont pris en charge ici. Si vous ne spécifiez pas ce service lié, le service lié Stockage Azure défini dans le service lié HDInsight est utilisé. Non
filePath Fournissez un tableau du chemin vers les programmes du mappeur, du combinateur et du raccord de réduction stockés dans le stockage Azure référencé par fileLinkedService. Le chemin d'accès respecte la casse. Oui
entrée Spécifie le chemin WASB vers le fichier d’entrée du mappeur. Oui
sortie Spécifie le chemin WASB vers le fichier de sortie du raccord de réduction. Oui
getDebugInfo Spécifie quand les fichiers journaux sont copiés vers le stockage Azure utilisé par le cluster HDInsight (ou) spécifié par scriptLinkedService. Valeurs autorisées : None, Always ou Failure. Valeur par défaut : Aucun. Non
arguments Spécifie un tableau d’arguments pour un travail Hadoop. Les arguments sont passés sous la forme d’arguments de ligne de commande à chaque tâche. Non
defines Spécifier les paramètres sous forme de paires clé/valeur pour le référencement au sein du script Hive. Non

Consultez les articles suivants qui expliquent comment transformer des données par d’autres moyens :