Sdílet prostřednictvím


Transformace dat spuštěním aktivity Azure HDInsight

Aktivita Azure HDInsight ve službě Data Factory pro Microsoft Fabric umožňuje orchestrovat následující typy úloh Azure HDInsight:

  • Spouštění dotazů Hive
  • Vyvolání programu MapReduce
  • Spouštění dotazů Pig
  • Spuštění programu Spark
  • Spuštění programu Hadoop Stream

Tento článek obsahuje podrobný návod, který popisuje, jak vytvořit aktivitu Azure HDInsight pomocí rozhraní služby Data Factory.

Požadavky

Abyste mohli začít, musíte splnit následující požadavky:

Přidání aktivity Azure HDInsight (HDI) do kanálu s uživatelským rozhraním

  1. Vytvořte v pracovním prostoru nový datový kanál.

  2. Na kartě domovské obrazovky vyhledejte Azure HDInsight a vyberte ji nebo vyberte aktivitu z panelu aktivit a přidejte ji na plátno kanálu.

    • Vytvoření aktivity z karty domovské obrazovky:

      Snímek obrazovky znázorňující, kde vytvořit novou aktivitu Azure HDInsight

    • Vytvoření aktivity z panelu Aktivit:

      Snímek obrazovky znázorňující, kde vytvořit novou aktivitu Azure HDInsight z panelu Aktivit v okně editoru kanálu

  3. Pokud ještě není vybraná, vyberte na plátně editoru kanálů novou aktivitu Azure HDInsight.

    Snímek obrazovky znázorňující aktivitu Azure HDInsight na plátně editoru kanálů

    Informace o konfiguraci možností nalezených na kartě Obecné nastavení najdete v doprovodných materiálech k obecným nastavením.

Konfigurace clusteru HDI

  1. Vyberte kartu Cluster HDI. Pak můžete zvolit existující nebo vytvořit nové připojení HDInsight.

  2. Pro připojení k prostředkům zvolte službu Azure Blob Storage, která odkazuje na váš cluster Azure HDInsight. Můžete zvolit existující úložiště objektů blob nebo vytvořit nové.

    Snímek obrazovky znázorňující vlastnosti clusteru HDI pro aktivitu Azure HDInsight

Konfigurace nastavení

Výběrem karty Nastavení zobrazíte upřesňující nastavení aktivity.

Snímek obrazovky znázorňující kartu Nastavení vlastností aktivity Azure HDInsight v okně editoru kanálu

Všechny pokročilé vlastnosti clusteru a dynamické výrazy podporované v propojené službě Azure Data Factory a Synapse Analytics HDInsight se teď podporují také v aktivitě Azure HDInsight pro službu Data Factory v Microsoft Fabric v části Upřesnit v uživatelském rozhraní. Všechny tyto vlastnosti podporují snadno použitelné vlastní parametrizované výrazy s dynamickým obsahem.

Typ clusteru

Pokud chcete nakonfigurovat nastavení clusteru HDInsight, vyberte nejprve jeho typ z dostupných možností, včetně Hive, Map Reduce, Pig, Spark a Streaming.

Hive

Pokud jako typ zvolíte Hive, aktivita spustí dotaz Hive. Volitelně můžete zadat připojení skriptu odkazující na účet úložiště, který obsahuje typ Hive. Ve výchozím nastavení se používá připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat cestu k souboru, která se má spustit ve službě Azure HDInsight. Volitelně můžete zadat další konfigurace v části Upřesnit, informace o ladění, vypršení časového limitu dotazu, argumenty, parametry a proměnné.

Snímek obrazovky znázorňující typ clusteru Hive

Mapové redukce

Pokud zvolíte Map Reduce for Type(Snížit typ), aktivita vyvolá program mapového redukce. Volitelně můžete zadat připojení Jar odkazující na účet úložiště, který obsahuje typ Redukce mapování. Ve výchozím nastavení se použije připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat název třídy a cestu k souboru, které se mají spustit ve službě Azure HDInsight. Volitelně můžete zadat další podrobnosti o konfiguraci, jako je import knihoven Jar, informace o ladění, argumenty a parametry v části Upřesnit .

Snímek obrazovky znázorňující výběr možnosti Redukce mapy pro typ clusteru HDInsight

Pig

Pokud jako typ zvolíte Pig, aktivita vyvolá dotaz Pig. Volitelně můžete zadat nastavení připojení skriptu, které odkazuje na účet úložiště, který obsahuje typ Pig. Ve výchozím nastavení se použije připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat cestu k souboru, která se má spustit ve službě Azure HDInsight. Volitelně můžete zadat další konfigurace, například informace o ladění, argumenty, parametry a proměnné v části Upřesnit .

Snímek obrazovky znázorňující výběr typu Pig pro cluster HDInsight

Spark

Pokud zvolíte Spark pro Typ, aktivita vyvolá program Spark. Jako typ Sparku vyberte buď Skript, nebo Jar. Volitelně můžete zadat připojení úlohy odkazující na účet úložiště, který obsahuje typ Sparku. Ve výchozím nastavení se použije připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat cestu k souboru, která se má spustit ve službě Azure HDInsight. Volitelně můžete zadat více konfigurací, jako je název třídy, uživatel proxy serveru, informace o ladění, argumenty a konfigurace sparku v části Upřesnit.

Snímek obrazovky znázorňující výběr typu Spark pro cluster HDInsight

Streamování

Pokud zvolíte Streamování pro typ, aktivita vyvolá program streamování. Zadejte názvy Mapper a Reducer a volitelně můžete zadat připojení k souboru odkazující na účet úložiště, který obsahuje typ streamování. Ve výchozím nastavení se použije připojení k úložišti, které jste zadali na kartě Cluster HDI. Musíte zadat cestu k souboru pro mapovač a cestu k souboru pro redukční nástroj , který se má spustit ve službě Azure HDInsight. Zahrňte také možnosti Vstupu a výstupu pro cestu WASB. Volitelně můžete v části Upřesnit zadat další konfigurace, například informace o ladění, argumenty a parametry.

Snímek obrazovky znázorňující výběr typu streamování pro cluster HDInsight

Referenční dokumentace k vlastnostem

Vlastnost Popis Povinní účastníci
type U aktivity streamování Hadoop je typ aktivity HDInsightStreaming. Ano
Mapovač Určuje název spustitelného souboru mapperu. Ano
Redukce Určuje název spustitelného souboru redukčního souboru. Ano
kombinační funkce Určuje název spustitelného souboru kombinátoru. No
připojení k souboru Odkaz na propojenou službu Azure Storage, která slouží k ukládání programů Mapper, Combiner a Reducer, které se mají spustit. No
Tady se podporují jenom připojení Azure Blob Storage a ADLS Gen2. Pokud toto připojení nezadáte, použije se připojení úložiště definované v připojení HDInsight.
Filepath Zadejte pole cesty k programům Mapper, Combiner a Reducer uloženým ve službě Azure Storage, na kterou odkazuje připojení k souborům. Ano
input Určuje cestu WASB ke vstupnímu souboru mapperu. Ano
output Určuje cestu WASB k výstupnímu souboru redukce. Ano
getDebugInfo Určuje, kdy se soubory protokolu zkopírují do služby Azure Storage používané clusterem HDInsight (nebo) určeným scriptLinkedService. No
Povolené hodnoty: Žádné, Vždy nebo Selhání. Výchozí hodnota: Žádný.
Argumenty Určuje pole argumentů pro úlohu Hadoop. Argumenty se předávají každému úkolu jako argumenty příkazového řádku. No
Definuje Zadejte parametry jako páry klíč/hodnota pro odkazování v rámci skriptu Hive. No

Uložení a spuštění nebo naplánování kanálu

Jakmile nakonfigurujete všechny další aktivity potřebné pro váš kanál, přepněte na kartu Domů v horní části editoru kanálů a výběrem tlačítka Uložit kanál uložte. Vyberte Spustit a spusťte ho přímo nebo naplánujte jeho naplánování. Historii spuštění můžete zobrazit také tady nebo nakonfigurovat další nastavení.

Snímek obrazovky s kartou Domů v editoru kanálů a zvýrazněním tlačítek Uložit, Spustit a Plán

Monitorování spuštění kanálu