Trasformare i dati usando l'attività Di streaming Hadoop in Azure Data Factory o Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

L'attività di streaming HDInsight in una pipeline di Azure Data Factory o Synapse Analytics esegue programmi Di streaming Hadoop nel cluster HDInsight personalizzato o su richiesta. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.

Per altre informazioni, leggere gli articoli introduttivi per Azure Data Factory e Synapse Analytics ed eseguire l'esercitazione: trasformare i dati prima di leggere questo articolo.

Aggiungere un'attività di streaming HDInsight a una pipeline con l'interfaccia utente

Per usare un'attività di streaming HDInsight in una pipeline, completare la procedura seguente:

  1. Cercare Streaming nel riquadro Attività della pipeline e trascinare un'attività di streaming nell'area di disegno della pipeline.

  2. Selezionare la nuova attività streaming nell'area di disegno se non è già selezionata.

  3. Selezionare la scheda Cluster HDI per selezionare o creare un nuovo servizio collegato a un cluster HDInsight che verrà usato per eseguire l'attività di streaming.

    Shows the UI for a Streaming activity.

  4. Selezionare la scheda File per specificare i nomi del mapper e del reducer per il processo di streaming e selezionare o creare un nuovo servizio collegato a un account Archiviazione di Azure che eseguirà il mapper, il reducer, l'input e i file di output per il processo. È anche possibile configurare dettagli avanzati, tra cui la configurazione di debug, gli argomenti e i parametri da passare al processo.

    Shows the UI for the File tab for a Streaming activity.

Esempio JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Dettagli sintassi

Proprietà Descrizione Obbligatoria
name Nome dell'attività
description Testo descrittivo per lo scopo dell'attività No
type Per l'attività di streaming di Hadoop, il tipo di attività è HDInsightStreaming
linkedServiceName Riferimento al cluster HDInsight registrato come servizio collegato. Per informazioni su questo servizio collegato, vedere l'articolo Servizi collegati di calcolo.
mapper Specifica il nome del mapper eseguibile
reducer Specifica il nome del reducer eseguibile
combiner Specifica il nome del combiner eseguibile No
fileLinkedService Riferimento a un servizio collegato Archiviazione di Azure usato per memorizzare i programmi relativi a mapper, combiner e reducer da eseguire. Qui sono supportati solo i servizi collegati Archiviazione BLOB di Azure e ADLS Gen2 . Se non si specifica questo servizio collegato, viene usato il servizio collegato Archiviazione di Azure definito nel servizio collegato HDInsight. No
filePath Specificare una matrice di percorso per i programmi relativi a mapper, combiner e reducer memorizzati in Archiviazione di Azure a cui fa riferimento fileLinkedService. Per il percorso viene applicata la distinzione tra maiuscole e minuscole.
input Specifica il percorso WASB del file di input per il mapper.
output Specifica il percorso WASB del file di output per il reducer.
getDebugInfo Specifica quando i file di log vengono copiati nell'Archiviazione di Azure usata dal cluster HDInsight (o) indicata da scriptLinkedService. Valori consentiti: None, Always e Failure. Valore predefinito: No. No
argomenti Specifica una matrice di argomenti per un processo Hadoop. Gli argomenti vengono passati a ogni attività come argomenti della riga di comando. No
defines Specificare i parametri come coppie chiave/valore per fare riferimento a essi nello script Hive. No

Passaggi successivi

Vedere gli articoli seguenti, che illustrano altre modalità di trasformazione dei dati: