Transformera data med hadoop-strömningsaktivitet i Azure Data Factory eller Synapse Analytics
GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics
Dricks
Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!
HDInsight-strömningsaktiviteten i en Azure Data Factory- eller Synapse Analytics-pipeline kör Hadoop Streaming-program på eget eller på begäran HDInsight-kluster. Den här artikeln bygger på artikeln om datatransformeringsaktiviteter , som visar en allmän översikt över datatransformering och de omvandlingsaktiviteter som stöds.
Mer information finns i introduktionsartiklarna i Azure Data Factory och Synapse Analytics och gör självstudien : transformera data innan du läser den här artikeln.
Lägga till en HDInsight Streaming-aktivitet i en pipeline med användargränssnittet
Utför följande steg för att använda en HDInsight Streaming-aktivitet till en pipeline:
Sök efter Direktuppspelning i fönstret Pipelineaktiviteter och dra en direktuppspelningsaktivitet till pipelinearbetsytan.
Välj den nya direktuppspelningsaktiviteten på arbetsytan om den inte redan är markerad.
Välj fliken HDI-kluster för att välja eller skapa en ny länkad tjänst till ett HDInsight-kluster som ska användas för att köra strömningsaktiviteten.
Välj fliken Arkiv för att ange mappnings- och reducernamnen för ditt direktuppspelningsjobb och välj eller skapa en ny länkad tjänst till ett Azure Storage-konto som kommer att mappa, minskare, indata och utdatafiler för jobbet. Du kan också konfigurera avancerad information, inklusive felsökning av konfiguration, argument och parametrar som ska skickas till jobbet.
JSON-exempel
{
"name": "Streaming Activity",
"description": "Description",
"type": "HDInsightStreaming",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"mapper": "MyMapper.exe",
"reducer": "MyReducer.exe",
"combiner": "MyCombiner.exe",
"fileLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"filePaths": [
"<containername>/example/apps/MyMapper.exe",
"<containername>/example/apps/MyReducer.exe",
"<containername>/example/apps/MyCombiner.exe"
],
"input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
"output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
"commandEnvironment": [
"CmdEnvVarName=CmdEnvVarValue"
],
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Syntaxinformation
Property | Beskrivning | Obligatoriskt |
---|---|---|
name | Namnet på aktiviteten | Ja |
description | Text som beskriver vad aktiviteten används för | Nej |
type | För Hadoop Streaming Activity är aktivitetstypen HDInsightStreaming | Ja |
linkedServiceName | Referens till HDInsight-klustret som registrerats som en länkad tjänst. Mer information om den här länkade tjänsten finns i artikeln Compute linked services (Beräkningslänkade tjänster ). | Ja |
Mapper | Anger namnet på den körbara mapparen | Ja |
Reducering | Anger namnet på den körbara reducern | Ja |
Combiner | Anger namnet på den körbara kombinationsappen | Nej |
fileLinkedService | Referens till en länkad Azure Storage-tjänst som används för att lagra de Mapper-, Combiner- och Reducer-program som ska köras. Här stöds endast Azure Blob Storage- och ADLS Gen2-länkade tjänster. Om du inte anger den här länkade tjänsten används den länkade Azure Storage-tjänsten som definierats i den länkade HDInsight-tjänsten. | Nej |
filePath | Ange en sökvägsmatris till programmen Mapper, Combiner och Reducer som lagras i Azure Storage som refereras av fileLinkedService. Sökvägen är skiftlägeskänslig. | Ja |
indata | Anger WASB-sökvägen till indatafilen för Mapper. | Ja |
utdata | Anger WASB-sökvägen till utdatafilen för reducern. | Ja |
getDebugInfo | Anger när loggfilerna kopieras till Azure Storage som används av HDInsight-klustret (eller) som anges av scriptLinkedService. Tillåtna värden: Ingen, Alltid eller Fel. Standardvärde: Ingen. | Nej |
Argument | Anger en matris med argument för ett Hadoop-jobb. Argumenten skickas som kommandoradsargument till varje uppgift. | Nej |
Definierar | Ange parametrar som nyckel/värde-par för referens i Hive-skriptet. | Nej |
Relaterat innehåll
Se följande artiklar som förklarar hur du transformerar data på andra sätt: