Adatok átalakítása Azure HDInsight-tevékenység futtatásával
A Data Factory for Microsoft Fabric Azure HDInsight-tevékenysége lehetővé teszi a következő Azure HDInsight-feladattípusok vezénylésére:
- Hive-lekérdezések végrehajtása
- MapReduce-program meghívása
- Pig-lekérdezések végrehajtása
- Spark-program végrehajtása
- Hadoop Stream-program végrehajtása
Ez a cikk részletes útmutatót tartalmaz, amely leírja, hogyan hozható létre Azure HDInsight-tevékenység a Data Factory felületével.
Előfeltételek
Első lépésként el kell végeznie a következő előfeltételeket:
- Aktív előfizetéssel rendelkező bérlői fiók. Fiók ingyenes létrehozása.
- Létrejön egy munkaterület.
Azure HDInsight -tevékenység hozzáadása egy folyamathoz felhasználói felülettel
Hozzon létre egy új adatfolyamot a munkaterületen.
Keresse meg az Azure HDInsightot a kezdőképernyőről, és jelölje ki, vagy válassza ki a tevékenységet a Tevékenységek sávon a folyamatvászonhoz való hozzáadásához.
Ha még nincs kijelölve, válassza ki az új Azure HDInsight-tevékenységet a folyamatszerkesztő vásznán.
A HDI-fürt konfigurálása
Válassza a HDI-fürt fület. Ezután választhat egy meglévőt, vagy létrehozhat egy új HDInsight-kapcsolatot.
Az erőforrás-kapcsolathoz válassza ki az Azure HDInsight-fürtre hivatkozó Azure Blob Storage-t. Választhat egy meglévő blobtárolót, vagy létrehozhat egy újat.
Beállítások konfigurálása
A tevékenység speciális beállításainak megtekintéséhez válassza a Gépház lapot.
Az Azure Data Factoryben és a Synapse Analytics HDInsight társított szolgáltatásban támogatott összes fejlett fürttulajdonság és dinamikus kifejezés mostantól a Microsoft Fabric Data Factory Azure HDInsight-tevékenységében is támogatott a felhasználói felület Speciális szakaszában. Ezek a tulajdonságok mind támogatják a dinamikus tartalommal rendelkező, könnyen használható egyéni paraméteres kifejezéseket.
Fürt típusa
A HDInsight-fürt beállításainak konfigurálásához először válassza ki annak típusát a rendelkezésre álló lehetőségek közül, például a Hive, a Map Reduce, a Pig, a Spark és a Streaming lehetőséget.
Hive
Ha a Hive típust választja, a tevékenység egy Hive-lekérdezést hajt végre. Megadhatja a Hive-típust tartalmazó tárfiókra hivatkozó szkriptkapcsolatot . Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia az Azure HDInsighton végrehajtandó fájl elérési útját . Igény szerint további konfigurációkat is megadhat a Speciális szakaszban, hibakeresési információk, lekérdezési időtúllépés, argumentumok, paraméterek és változók.
Leképezés csökkentése
Ha a Típus leképezése csökkentés lehetőséget választja, a tevékenység egy Térképcsökkentési programot hív meg. Igény szerint megadhatja a Jar-kapcsolaton belül, hogy egy olyan tárfiókra hivatkozzon, amely a Map Reduce típust tartalmazza. Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia az Azure HDInsightban végrehajtandó osztálynevet és fájl elérési útját . Igény szerint további konfigurációs adatokat is megadhat, például Jar-kódtárak importálását, hibakeresési információkat, argumentumokat és paramétereket a Speciális szakaszban.
Pig
Ha a Pig for Type lehetőséget választja, a tevékenység egy Pig-lekérdezést hív meg. Megadhatja a Pig típust tartalmazó tárfiókra hivatkozó szkriptkapcsolati beállítást. Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia az Azure HDInsighton végrehajtandó fájl elérési útját . Igény szerint további konfigurációkat is megadhat, például hibakeresési információkat, argumentumokat, paramétereket és változókat a Speciális szakaszban.
Spark
Ha a Spark for Type lehetőséget választja, a tevékenység egy Spark-programot hív meg. A Spark-típushoz válassza a Szkript vagy a Jar lehetőséget. Megadhatja a Spark-típust tartalmazó tárfiókra hivatkozó feladatkapcsolatot . Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia az Azure HDInsighton végrehajtandó fájl elérési útját . Igény szerint további konfigurációkat is megadhat, például osztálynevet, proxyfelhasználót, hibakeresési információkat, argumentumokat és spark-konfigurációt a Speciális szakaszban.
Streamelés
Ha a Típus streamelése lehetőséget választja, a tevékenység egy streamelési programot hív meg. Adja meg a Mapper és a Reducer neveket, és opcionálisan megadhatja a streamelési típust tartalmazó tárfiókra hivatkozó fájlkapcsolatot. Alapértelmezés szerint a HDI-fürt lapon megadott tárkapcsolatot használja a rendszer. Meg kell adnia a Mapper fájlútvonalát és a Reducer fájlútvonalát az Azure HDInsightban való végrehajtáshoz. Adja meg a WASB-elérési út bemeneti és kimeneti beállításait is. Igény szerint további konfigurációkat is megadhat, például hibakeresési információkat, argumentumokat és paramétereket a Speciális szakaszban.
Tulajdonsághivatkozás
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | A Hadoop streamelési tevékenység esetében a tevékenység típusa a HDInsightStreaming | Igen |
Mapper | A végrehajtható leképező nevét adja meg | Igen |
Szűkítő | A végrehajtható redukátor nevét adja meg | Igen |
Közösítő | A végrehajtható kombináló nevét adja meg | Nem |
fájlkapcsolat | Hivatkozás a végrehajtandó Mapper, Combiner és Reducer programok tárolására használt Azure Storage társított szolgáltatásra. | Nem |
Itt csak az Azure Blob Storage és az ADLS Gen2 kapcsolatok támogatottak. Ha nem adja meg ezt a kapcsolatot, a HDInsight-kapcsolatban definiált tárkapcsolat lesz használatban. | ||
filePath | Adjon meg egy tömböt a fájlkapcsolat által hivatkozott Azure Storage-ban tárolt Mapper-, Combiner- és Reducer-programok elérési útjának. | Igen |
bemenet | Megadja a Mapper bemeneti fájljának WASB-elérési útját. | Igen |
output | Megadja a Csökkentési fájl kimeneti fájljának WASB-elérési útját. | Igen |
getDebugInfo | Megadja, hogy a naplófájlok mikor legyenek átmásolva a SCRIPTLinkedService által megadott HDInsight-fürt (vagy) által használt Azure Storage-ba. | Nem |
Engedélyezett értékek: Nincs, Mindig vagy Hiba. Alapértelmezett érték: Nincs. | ||
Érvek | Egy Hadoop-feladat argumentumainak tömbje. Az argumentumokat a rendszer parancssori argumentumként továbbítja az egyes tevékenységeknek. | Nem |
Meghatározza | Adja meg a paramétereket kulcs/érték párként a Hive-szkripten belüli hivatkozáshoz. | Nem |
A folyamat mentése és futtatása vagy ütemezése
Miután konfigurálta a folyamathoz szükséges egyéb tevékenységeket, váltson a Kezdőlap lapra a folyamatszerkesztő tetején, és válassza a Mentés gombot a folyamat mentéséhez. A Futtatás lehetőséget választva közvetlenül futtathatja, vagy ütemezheti. Itt megtekintheti a futtatási előzményeket, vagy konfigurálhat más beállításokat is.