Condividi tramite


Trasforma i dati tramite l'attività di Hadoop Streaming in Azure Data Factory o Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

L'attività di streaming HDInsight in una pipeline di Azure Data Factory o Synapse Analytics esegue programmi Hadoop Streaming nelproprio cluster HDInsight o su richiesta. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.

Per altre informazioni, leggere gli articoli introduttivi di Azure Data Factory e Synapse Analytics ed eseguire l'esercitazione : trasformare i dati prima di leggere questo articolo.

Aggiungere un'attività Streaming di HDInsight a una pipeline tramite interfaccia utente

Per usare un'attività di streaming HDInsight in una pipeline, completare la procedura seguente:

  1. Cerca Streaming nel riquadro delle attività della pipeline e trascina un'attività di Streaming nell'area di disegno della pipeline.

  2. Selezionare la nuova attività Streaming nell'area di disegno, se non è già selezionata.

  3. Selezionare la scheda Cluster HDI per selezionare o creare un nuovo servizio collegato in un cluster HDInsight che verrà usato per eseguire l'attività di streaming.

    Mostra l'interfaccia utente per un'attività di streaming.

  4. Selezionare la scheda File per specificare i nomi del mapper e del riduttore per il processo di streaming e selezionare o creare un nuovo servizio collegato a un account di archiviazione di Azure che conterrà i file del mapper, del riduttore, di input e di output per il processo. È anche possibile configurare dettagli avanzati, tra cui la configurazione di debug, gli argomenti e i parametri da passare al processo.

    Mostra l'interfaccia utente per la scheda File per un'attività di streaming.

Esempio di JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Dettagli sintassi

Proprietà Descrizione Richiesto
nome Nome dell'attività
descrizione Testo che descrive l'uso dell'attività No
tipo Per l'attività di streaming di Hadoop, il tipo di attività è HDInsightStreaming
nomeServizioCollegato Riferimento al cluster HDInsight registrato come servizio collegato. Per informazioni su questo servizio collegato, vedere l'articolo Servizi collegati di calcolo.
mapper Specifica il nome del mapper eseguibile
riduttore Specifica il nome del reducer eseguibile
combinatore Specifica il nome del combiner eseguibile No
fileLinkedService Riferimento a un servizio collegato Azure Storage usato per memorizzare i programmi Mapper, Combiner e Reducer da eseguire. Qui sono supportati solo i servizi collegati Archiviazione BLOB di Azure e ADLS Gen2. Se non si specifica questo servizio collegato, viene usato il servizio collegato Archiviazione di Azure definito nel servizio collegato HDInsight. No
percorso del file Specificare un array di percorsi per i programmi Mapper, Combiner e Reducer memorizzati nell'Azure Storage a cui fa riferimento fileLinkedService. Il percorso è sensibile alle maiuscole.
input Specifica il percorso WASB al file di input per il Mapper.
risultato Specifica il percorso WASB del file di output per il reducer.
getDebugInfo Specifica quando i file di log vengono copiati nell'Archiviazione di Azure usata dal cluster HDInsight (o) indicata da scriptLinkedService. Valori consentiti: Nessuno, Sempre o Errore. Valore predefinito: None. No
argomenti Specifica una matrice di argomenti per un processo Hadoop. Gli argomenti vengono passati a ogni attività come argomenti della riga di comando. No
definisce Specificare i parametri come coppie chiave/valore per fare riferimento a essi nello script Hive. No

Vedere gli articoli seguenti, che illustrano altre modalità di trasformazione dei dati: