Adatok átalakítása Hadoop Hive-tevékenység használatával a Azure Data Factory vagy a Synapse Analyticsben

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Az Azure Data Factory vagy Synapse Analytics adatfolyamában az HDInsight Hive-tevékenység Hive-lekérdezéseket hajt végre a saját vagy igény szerinti HDInsight fürtön. Ez a cikk az adatátalakítási tevékenységekről szóló cikkre épül, amely általános áttekintést nyújt az adatátalakításról és a támogatott átalakítási tevékenységekről.

Ha még nem ismerkedik a Azure Data Factory és a Synapse Analytics szolgáltatással, olvassa el a Azure Data Factory vagy Synapse Analytics bevezető cikkeit, és a cikk elolvasása előtt olvassa el az Tutorial: adatátalakítást.

HDInsight Hive-tevékenység hozzáadása egy folyamathoz felhasználói felülettel

Ha HDInsight Hive-tevékenységet szeretne használni Azure Data Lake Analytics egy folyamatban, hajtsa végre a következő lépéseket:

  1. Keresse meg a Hive-t a folyamattevékenységek panelen, és húzzon egy Hive-tevékenységet a folyamatvászonra.

  2. Jelölje ki az új Hive-tevékenységet a vásznon, ha még nincs kijelölve.

  3. A HDI-fürt fülre kattintva válasszon ki vagy hozzon létre egy új társított szolgáltatást egy HDInsight-fürthöz, amely a Hive-tevékenység végrehajtásához lesz használva.

    Egy Hive-tevékenység felhasználói felületét jeleníti meg.

  4. A Szkript fülre kattintva válasszon ki vagy hozzon létre egy új társított társzolgáltatást, valamint egy elérési utat a tárolóhelyen belül, amely a szkriptet fogja üzemeltetni.

    Egy Hive-tevékenység Szkript lapjának felhasználói felületét jeleníti meg.

Szintaxis

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveScript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Szintaxis részletei

Tulajdonság Leírás Szükséges
név A tevékenység neve Igen
leírás A tevékenység használatát leíró szöveg Nem
típus Hive-tevékenység esetén a tevékenység típusa HDinsightHive Igen
KapcsoltSzolgáltatásNév Hivatkozás a HDInsight-fürtre, amely regisztrálva van, mint társított szolgáltatás. A társított szolgáltatással kapcsolatos további információkért tekintse meg a társított számítási szolgáltatásokról szóló cikket. Igen
scriptLinkedService Hivatkozás egy Azure Storage társított szolgáltatásra, amely a végrehajtandó Hive-szkript tárolására szolgál. Itt csak Azure Blob Storage és ADLS Gen2 társított szolgáltatások támogatottak. Ha nem adja meg ezt a társított szolgáltatást, a rendszer a HDInsight társított szolgáltatásban definiált Azure Storage társított szolgáltatást használja. Nem
szkript útvonala Adja meg a scriptLinkedService által hivatkozott Azure Storage tárolt szkriptfájl elérési útját. A fájlnév kis- és nagybetűérzékeny. Igen
getDebugInfo (a hibakeresési információk lekérése) Megadja, hogy a naplófájlok mikor legyenek átmásolva az Azure Storage-ra, amelyet a HDInsight-fürt használ, vagy amelyet a scriptLinkedService határoz meg. Engedélyezett értékek: Nincs, Mindig vagy Hiba. Alapértelmezett érték: Nincs. Nem
Érvek Egy Hadoop-feladat argumentumainak tömbje. Az argumentumokat a rendszer parancssori argumentumként továbbítja az egyes tevékenységeknek. Nem
Meghatározza Adja meg a paramétereket kulcs/érték párként a Hive-szkripten belüli hivatkozáshoz. Nem
queryTimeout Lekérdezés időtúllépési értéke (percekben). Akkor alkalmazható, ha a HDInsight-fürt engedélyezve van az Enterprise Security Package szolgáltatásban. Nem

Feljegyzés

A queryTimeout alapértelmezett értéke 120 perc.

Tekintse meg az alábbi cikkeket, amelyekből megtudhatja, hogyan alakíthat át adatokat más módokon: