Megosztás a következőn keresztül:


Adatok átalakítása Azure HDInsight-tevékenység futtatásával

A Data Factory for Microsoft Fabric Azure HDInsight-tevékenysége lehetővé teszi a következő Azure HDInsight-feladattípusok vezénylésére:

  • Hive-lekérdezések végrehajtása
  • MapReduce-program meghívása
  • Pig-lekérdezések végrehajtása
  • Spark-program végrehajtása
  • Hadoop Stream-program végrehajtása

Ez a cikk részletes útmutatót tartalmaz, amely leírja, hogyan hozható létre Azure HDInsight-tevékenység a Data Factory felületével.

Előfeltételek

Első lépésként el kell végeznie a következő előfeltételeket:

Azure HDInsight -tevékenység hozzáadása egy folyamathoz felhasználói felülettel

  1. Hozzon létre egy új adatfolyamot a munkaterületen.

  2. Keresse meg az Azure HDInsightot a kezdőképernyőről, és jelölje ki, vagy válassza ki a tevékenységet a Tevékenységek sávon a folyamatvászonhoz való hozzáadásához.

    • A tevékenység létrehozása a kezdőképernyő kártyáról:

      Képernyőkép egy új Azure HDInsight-tevékenység létrehozásáról.

    • A tevékenység létrehozása a Tevékenységek sávról:

      Képernyőkép arról, hogy hol hozhat létre új Azure HDInsight-tevékenységet a folyamatszerkesztő ablak Tevékenységek sávjáról.

  3. Ha még nincs kijelölve, válassza ki az új Azure HDInsight-tevékenységet a folyamatszerkesztő vásznán.

    Képernyőkép az Azure HDInsight-tevékenységről a folyamatszerkesztő vásznán.

    Az Általános beállítások lapon található beállítások konfigurálásához tekintse meg az Általános beállítások útmutatót.

A HDI-fürt konfigurálása

  1. Válassza a HDI-fürt fület. Ezután választhat egy meglévőt, vagy létrehozhat egy új HDInsight-kapcsolatot.

  2. Az erőforrás-kapcsolathoz válassza ki az Azure HDInsight-fürtre hivatkozó Azure Blob Storage-t. Választhat egy meglévő blobtárolót, vagy létrehozhat egy újat.

    Képernyőkép az Azure HDInsight-tevékenység HDI-fürt tulajdonságairól.

Beállítások konfigurálása

A tevékenység speciális beállításainak megtekintéséhez válassza a Gépház lapot.

Képernyőkép az Azure HDInsight-tevékenység tulajdonságainak Gépház lapról a folyamatszerkesztő ablakban.

Az Azure Data Factoryben és a Synapse Analytics HDInsight társított szolgáltatásban támogatott összes fejlett fürttulajdonság és dinamikus kifejezés mostantól a Microsoft Fabric Data Factory Azure HDInsight-tevékenységében is támogatott a felhasználói felület Speciális szakaszában. Ezek a tulajdonságok mind támogatják a dinamikus tartalommal rendelkező, könnyen használható egyéni paraméteres kifejezéseket.

Fürt típusa

A HDInsight-fürt beállításainak konfigurálásához először válassza ki annak típusát a rendelkezésre álló lehetőségek közül, például a Hive, a Map Reduce, a Pig, a Spark és a Streaming lehetőséget.

Hive

Ha a Hive típust választja, a tevékenység egy Hive-lekérdezést hajt végre. Megadhatja a Hive-típust tartalmazó tárfiókra hivatkozó szkriptkapcsolatot . Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia az Azure HDInsighton végrehajtandó fájl elérési útját . Igény szerint további konfigurációkat is megadhat a Speciális szakaszban, hibakeresési információk, lekérdezési időtúllépés, argumentumok, paraméterek és változók.

Képernyőkép a Hive fürttípusáról.

Leképezés csökkentése

Ha a Típus leképezése csökkentés lehetőséget választja, a tevékenység egy Térképcsökkentési programot hív meg. Igény szerint megadhatja a Jar-kapcsolaton belül, hogy egy olyan tárfiókra hivatkozzon, amely a Map Reduce típust tartalmazza. Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia az Azure HDInsightban végrehajtandó osztálynevet és fájl elérési útját . Igény szerint további konfigurációs adatokat is megadhat, például Jar-kódtárak importálását, hibakeresési információkat, argumentumokat és paramétereket a Speciális szakaszban.

Képernyőkép a HDInsight-fürttípus térképcsökkentésének kiválasztásáról.

Pig

Ha a Pig for Type lehetőséget választja, a tevékenység egy Pig-lekérdezést hív meg. Megadhatja a Pig típust tartalmazó tárfiókra hivatkozó szkriptkapcsolati beállítást. Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia az Azure HDInsighton végrehajtandó fájl elérési útját . Igény szerint további konfigurációkat is megadhat, például hibakeresési információkat, argumentumokat, paramétereket és változókat a Speciális szakaszban.

Képernyőkép a HDInsight-fürt Pig típusának kiválasztásáról.

Spark

Ha a Spark for Type lehetőséget választja, a tevékenység egy Spark-programot hív meg. A Spark-típushoz válassza a Szkript vagy a Jar lehetőséget. Megadhatja a Spark-típust tartalmazó tárfiókra hivatkozó feladatkapcsolatot . Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia az Azure HDInsighton végrehajtandó fájl elérési útját . Igény szerint további konfigurációkat is megadhat, például osztálynevet, proxyfelhasználót, hibakeresési információkat, argumentumokat és spark-konfigurációt a Speciális szakaszban.

Képernyőkép a HDInsight-fürt Spark-típusának kiválasztásáról.

Streamelés

Ha a Típus streamelése lehetőséget választja, a tevékenység egy streamelési programot hív meg. Adja meg a Mapper és a Reducer neveket, és opcionálisan megadhatja a streamelési típust tartalmazó tárfiókra hivatkozó fájlkapcsolatot. Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia a Mapper fájlútvonalát és a Reducer fájlútvonalát az Azure HDInsightban való végrehajtáshoz. Adja meg a WASB-elérési út bemeneti és kimeneti beállításait is. Igény szerint további konfigurációkat is megadhat, például hibakeresési információkat, argumentumokat és paramétereket a Speciális szakaszban.

Képernyőkép a HDInsight-fürt streamelési típusának kiválasztásáról.

Tulajdonsághivatkozás

Tulajdonság Leírás Kötelező
típus A Hadoop streamelési tevékenység esetében a tevékenység típusa a HDInsightStreaming Igen
Mapper A végrehajtható leképező nevét adja meg Igen
Szűkítő A végrehajtható redukátor nevét adja meg Igen
Közösítő A végrehajtható kombináló nevét adja meg Nem
fájlkapcsolat Hivatkozás a végrehajtandó Mapper, Combiner és Reducer programok tárolására használt Azure Storage társított szolgáltatásra. Nem
Itt csak az Azure Blob Storage és az ADLS Gen2 kapcsolatok támogatottak. Ha nem adja meg ezt a kapcsolatot, a HDInsight-kapcsolatban definiált tárkapcsolat lesz használatban.
filePath Adjon meg egy tömböt a fájlkapcsolat által hivatkozott Azure Storage-ban tárolt Mapper-, Combiner- és Reducer-programok elérési útjának. Igen
bemenet Megadja a Mapper bemeneti fájljának WASB-elérési útját. Igen
output Megadja a Csökkentési fájl kimeneti fájljának WASB-elérési útját. Igen
getDebugInfo Megadja, hogy a naplófájlok mikor legyenek átmásolva a SCRIPTLinkedService által megadott HDInsight-fürt (vagy) által használt Azure Storage-ba. Nem
Engedélyezett értékek: Nincs, Mindig vagy Hiba. Alapértelmezett érték: Nincs.
Érvek Egy Hadoop-feladat argumentumainak tömbje. Az argumentumokat a rendszer parancssori argumentumként továbbítja az egyes tevékenységeknek. Nem
Meghatározza Adja meg a paramétereket kulcs/érték párként a Hive-szkripten belüli hivatkozáshoz. Nem

A folyamat mentése és futtatása vagy ütemezése

Miután konfigurálta a folyamathoz szükséges egyéb tevékenységeket, váltson a Kezdőlap lapra a folyamatszerkesztő tetején, és válassza a Mentés gombot a folyamat mentéséhez. A Futtatás lehetőséget választva közvetlenül futtathatja, vagy ütemezheti. Itt megtekintheti a futtatási előzményeket, vagy konfigurálhat más beállításokat is.

Képernyőkép a folyamatszerkesztő Kezdőlap lapjáról, kiemelve a Mentés, a Futtatás és az Ütemezés gombot.

Folyamatfuttatások monitorozása