Gegevens transformeren met behulp van Hadoop Hive-activiteit in Azure Data Factory of Synapse Analytics

Van toepassing op: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory in Microsoft Fabric is de volgende generatie van Azure Data Factory, met een eenvoudigere architectuur, ingebouwde AI en nieuwe functies. Als u nieuw bent in gegevensintegratie, begint u met Fabric Data Factory. Bestaande ADF-workloads kunnen upgraden naar Fabric om toegang te krijgen tot nieuwe mogelijkheden voor gegevenswetenschap, realtime analyses en rapportage.

De HDInsight Hive-activiteit in een Azure Data Factory of Synapse Analytics pipeline voert Hive-query's uit op eigen of on-demand HDInsight-cluster. Dit artikel is gebaseerd op het artikel over activiteiten voor gegevenstransformatie , waarin een algemeen overzicht wordt weergegeven van de gegevenstransformatie en de ondersteunde transformatieactiviteiten.

Als u geen toegang hebt tot Azure Data Factory en Synapse Analytics, leest u de inleidende artikelen voor Azure Data Factory of Synapse Analytics en voert u de Tutorial: gegevens transformeren voordat u dit artikel leest.

Een HDInsight Hive-activiteit aan een pijplijn toevoegen met de gebruikersinterface

Voer de volgende stappen uit om een HDInsight Hive-activiteit te gebruiken voor Azure Data Lake Analytics in een pijplijn:

  1. Zoek naar Hive in het deelvenster Pijplijnactiviteiten en sleep een Hive-activiteit naar het pijplijncanvas.

  2. Selecteer de nieuwe Hive-activiteit op het canvas als deze nog niet is geselecteerd.

  3. Selecteer het tabblad HDI-cluster om een nieuwe gekoppelde service te selecteren of te maken voor een HDInsight-cluster dat wordt gebruikt om de Hive-activiteit uit te voeren.

    Toont de gebruikersinterface voor een Hive-activiteit.

  4. Selecteer het tabblad Script om een nieuwe gekoppelde opslagservice te selecteren of te maken, en een pad binnen de opslaglocatie, waarop het script wordt gehost.

    Toont de gebruikersinterface voor het tabblad Script voor een Hive-activiteit.

Syntaxis

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveScript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Details van de syntaxis

Eigenschap Beschrijving Vereist
naam Naam van de activiteit Ja
beschrijving Tekst waarin wordt beschreven waarvoor de activiteit wordt gebruikt Nee
type Voor Hive-activiteit is het activiteitstype HDinsightHive Ja
naam van de gekoppelde service Verwijzing naar het HDInsight-cluster dat is geregistreerd als een gekoppelde service. Zie het artikel Compute als Gekoppelde Services voor meer informatie over deze gekoppelde service. Ja
scriptLinkedService Verwijzing naar een Azure Storage gekoppelde service die wordt gebruikt om het Hive-script op te slaan dat moet worden uitgevoerd. Alleen Azure Blob Storage en ADLS Gen2 gekoppelde services worden hier ondersteund. Als u deze gekoppelde service niet opgeeft, wordt de in de HDInsight gekoppelde service gedefinieerde Azure Storage gekoppelde service gebruikt. Nee
scriptPath Geef het pad op naar het scriptbestand dat is opgeslagen in de Azure Storage waarnaar wordt verwezen door scriptLinkedService. De bestandsnaam is hoofdlettergevoelig. Ja
getDebugInfo Hiermee geeft u op wanneer de logboekbestanden worden gekopieerd naar de Azure Storage die worden gebruikt door het HDInsight-cluster (of) dat is opgegeven door scriptLinkedService. Toegestane waarden: Geen, Altijd of Fout. Standaardwaarde: Geen. Nee
Argumenten Specificeer een array van argumenten voor een Hadoop-taak. De argumenten worden doorgegeven als opdrachtregelargumenten aan elke taak. Nee
Definieert Geef parameters op als sleutel-waardeparen voor verwijzingen in het Hive-script. Nee
queryTimeout Time-outwaarde van query (in minuten). Van toepassing wanneer het HDInsight-cluster is ingeschakeld voor Enterprise Security Package. Nee

Notitie

De standaardwaarde voor queryTimeout is 120 minuten.

Zie de volgende artikelen waarin wordt uitgelegd hoe u gegevens op andere manieren kunt transformeren: