Transformace dat pomocí aktivity streamování Hadoop v Azure Data Factory nebo Synapse Analytics

VZTAHUJE SE NA: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.

Aktivita streamování HDInsight v Azure Data Factory nebo Synapse Analytics pipeline spouští programy streamování Hadoop na vlastní nebo na vyžádání clustru HDInsight. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit.

Další informace najdete v úvodních článcích Azure Data Factory a Synapse Analytics a před přečtením tohoto článku si přečtěte Tutorial: transformovat data.

Přidejte aktivitu streamování HDInsight do datového toku pomocí uživatelského rozhraní

Pro přidání aktivity streamování HDInsight k datovému kanálu, proveďte následující kroky:

  1. Vyhledejte Streaming v podokně Aktivity kanálu a přetáhněte aktivitu Streaming na plátno kanálu.

  2. Pokud ještě není vybraná, vyberte na plátně novou aktivitu streamování.

  3. Vyberte kartu HDI Cluster k výběru nebo vytvoření nové propojené služby pro cluster HDInsight, který se použije ke spuštění aktivity streamování.

    Zobrazuje uživatelské rozhraní pro aktivitu streamování.

  4. Vyberte kartu Soubor a zadejte názvy mapovačů a reduktorů pro úlohu streamování a vyberte nebo vytvořte novou propojenou službu k účtu Azure Storage, který bude ukládat mapovače, reduktory, vstupní a výstupní soubory úlohy. Můžete také nakonfigurovat pokročilé podrobnosti, včetně konfigurace ladění, argumentů a parametrů, které se mají předat úloze.

    Zobrazuje uživatelské rozhraní karty Soubor pro aktivitu streamování.

Ukázka JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Podrobnosti o syntaxi

Vlastnost Popis Povinné
název Název aktivity Ano
popis Text popisující, k čemu se aktivita používá Ne
typ U aktivity streamování Hadoop je typ aktivity HDInsightStreaming. Ano
názevPrepojenéSlužby Odkaz na cluster HDInsight zaregistrovaný jako propojená služba Další informace o této propojené službě najdete v článku o propojených službách Compute. Ano
mapovač Určuje název spustitelného souboru mapperu. Ano
reduktor Určuje název spustitelného souboru reduceru. Ano
kombinátor Určuje název spustitelného programu kombinátoru. Ne
fileLinkedService Odkaz na propojenou službu Azure Storage sloužící k uložení programů Mapper, Combiner a Reducer, které se mají spustit. Tady jsou podporované jenom Azure Blob Storage a ADLS Gen2 propojené služby. Pokud tuto propojenou službu nezadáte, použije se propojená služba Azure Storage definovaná v propojené službě HDInsight. Ne
filePath Zadejte pole cest k programům Mapper, Combiner a Reducer uloženým v Azure Storage, na kterou se odkazuje pomocí fileLinkedService. Cesta rozlišuje velká a malá písmena. Ano
vstup Určuje cestu WASB ke vstupnímu souboru mapperu. Ano
výstup Určuje cestu WASB k výstupnímu souboru pro Reducer. Ano
getDebugInfo Určuje, kdy se soubory protokolu kopírují do úložiště Azure, které používá cluster HDInsight nebo které je specifikováno službou scriptLinkedService. Povolené hodnoty: Žádné, Vždy nebo Selhání. Výchozí hodnota: Žádný. Ne
argumenty Určuje pole argumentů pro úlohu Hadoop. Argumenty se předávají každému úkolu jako argumenty příkazového řádku. Ne
definuje Zadejte parametry jako páry klíč/hodnota pro odkazování v rámci skriptu Hive. Ne

Podívejte se na následující články, které vysvětlují, jak transformovat data jinými způsoby: