Transformace dat pomocí aktivity Hadoop Hive ve službě Azure Data Factory nebo Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Aktivita HDInsight Hive v kanálu Azure Data Factory nebo Synapse Analytics spouští dotazy Hive ve vašem vlastním clusteru HDInsight nebo clusteru HDInsight na vyžádání. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit.

Pokud s Azure Data Factory a Synapse Analytics teprve začínáte, přečtěte si úvodní články o službě Azure Data Factory nebo Synapse Analytics a před přečtením tohoto článku si přečtěte tento kurz: Transformace dat .

Přidání aktivity HDInsight Hive do kanálu s uživatelským rozhraním

Pokud chcete v kanálu použít aktivitu HDInsight Hive pro Azure Data Lake Analytics, proveďte následující kroky:

  1. Vyhledejte Hive v podokně Aktivity kanálu a přetáhněte aktivitu Hive na plátno kanálu.

  2. Vyberte novou aktivitu Hive na plátně, pokud ještě není vybraná.

  3. Výběrem karty Cluster HDI vyberte nebo vytvořte novou propojenou službu s clusterem HDInsight, který se použije ke spuštění aktivity Hive.

    Shows the UI for a Hive activity.

  4. Výběrem karty Skript vyberte nebo vytvořte novou propojenou službu úložiště a cestu v umístění úložiště, která bude hostovat skript.

    Shows the UI for the Script tab for a Hive activity.

Syntaxe

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Podrobnosti o syntaxi

Vlastnost Popis Povinní účastníci
name Název aktivity Ano
description Text popisující, k čemu se aktivita používá No
type U aktivity Hive je typ aktivity HDinsightHive. Ano
linkedServiceName Odkaz na cluster HDInsight zaregistrovaný jako propojená služba Další informace o této propojené službě najdete v článku o propojených službách Compute. Ano
scriptLinkedService Odkaz na propojenou službu Azure Storage sloužící k uložení skriptu Hive, který se má spustit. Tady jsou podporované jenom propojené služby Azure Blob Storage a ADLS Gen2. Pokud tuto propojenou službu nezadáte, použije se propojená služba Azure Storage definovaná v propojené službě HDInsight. No
scriptPath Zadejte cestu k souboru skriptu uloženému ve službě Azure Storage, na kterou odkazuje scriptLinkedService. V názvu souboru se rozlišují malá a velká písmena. Ano
getDebugInfo Určuje, kdy se soubory protokolu zkopírují do služby Azure Storage používané clusterem HDInsight (nebo) určeným scriptLinkedService. Povolené hodnoty: Žádné, Vždy nebo Selhání. Výchozí hodnota: Žádný. No
Argumenty Určuje pole argumentů pro úlohu Hadoop. Argumenty se předávají každému úkolu jako argumenty příkazového řádku. No
Definuje Zadejte parametry jako páry klíč/hodnota pro odkazování v rámci skriptu Hive. No
queryTimeout Hodnota časového limitu dotazu (v minutách). Platí, pokud je cluster HDInsight s povoleným balíčkem zabezpečení podniku. No

Poznámka:

Výchozí hodnota pro queryTimeout je 120 minut.

Podívejte se na následující články, které vysvětlují, jak transformovat data jinými způsoby: