Transformace dat ve službě Azure Data Factory a Azure Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Důležité

Podpora pro Azure Machine Učení Studio (Classic) skončí 31. srpna 2024. Doporučujeme, abyste do tohoto data přešli na Učení Azure Machine.

Od 1. prosince 2021 nemůžete vytvořit nové prostředky machine Učení Studio (klasické) (pracovní prostor a plán webové služby). Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby machine Učení Studio (klasické). Další informace naleznete v tématu:

Dokumentace k sadě Machine Učení Studio (classic) se vyřadí z provozu a nemusí být v budoucnu aktualizována.

Přehled

Tento článek vysvětluje aktivity transformace dat v kanálech Azure Data Factory a Synapse, které můžete použít k transformaci a zpracování nezpracovaných dat do předpovědí a přehledů ve velkém měřítku. Aktivita transformace se provádí v výpočetním prostředí, jako je Azure Databricks nebo Azure HDInsight. Obsahuje odkazy na články s podrobnými informacemi o každé aktivitě transformace.

Služba podporuje následující aktivity transformace dat, které je možné přidat do kanálů jednotlivě nebo zřetězených s jinou aktivitou.

Nativní transformace ve službě Azure Data Factory a Azure Synapse Analytics s využitím toků dat

Toky dat mapování

Mapování toků dat jsou vizuálně navržené transformace dat ve službě Azure Data Factory a Azure Synapse. Toky dat umožňují datovým inženýrům vyvíjet grafickou logiku transformace dat bez psaní kódu. Výsledné toky dat se spouští jako aktivity v kanálech, které používají clustery Spark se škálováním na více systémů. Aktivity toku dat je možné zprovoznit prostřednictvím stávajících možností plánování, řízení, toku a monitorování v rámci služby. Další informace najdete v tématu mapování toků dat.

Transformace dat

Power Query ve službě Azure Data Factory umožňuje transformace dat v cloudovém měřítku, což umožňuje iterativní přípravu dat bez kódu v cloudovém měřítku. Transformace dat se integruje s Power Query Online a zpřístupňuje funkce Power Query M pro transformaci dat v cloudovém měřítku prostřednictvím spouštění Sparku. Další informace najdete v tématu Transformace dat ve službě Azure Data Factory.

Poznámka:

Power Query se v současné době podporuje jenom ve službě Azure Data Factory, nikoli ve službě Azure Synapse. Seznam konkrétních funkcí podporovaných v jednotlivých službách najdete v tématu Dostupné funkce v kanálech Azure Data Factory a Azure Synapse Analytics.

Externí transformace

Volitelně můžete transformovat kódy a spravovat externí výpočetní prostředí sami.

Aktivita Hivu služby HDInsight

Aktivita HDInsight Hive v kanálu spouští dotazy Hive na vlastní nebo na vyžádání v clusteru HDInsight založeném na Windows nebo Linuxu. Podrobnosti o této aktivitě najdete v článku o aktivitě Hive.

Aktivita Pig služby HDInsight

Aktivita HDInsight Pig v kanálu spouští dotazy Pig na vlastní nebo na vyžádání v clusteru HDInsight založeném na Windows nebo Linuxu. Podrobnosti o této aktivitě najdete v článku o aktivitě Pig.

Aktivita MapReduce služby HDInsight

Aktivita HDInsight MapReduce v kanálu spouští programy MapReduce ve vašem vlastním clusteru HDInsight nebo na vyžádání se systémem Windows nebo Linux. Podrobnosti o této aktivitě najdete v článku o aktivitě MapReduce.

Aktivita streamování HDInsight

Aktivita streamování HDInsight v kanálu spouští programy hadoop Streaming na vlastní nebo na vyžádání v clusteru HDInsight založeném na Windows nebo Linuxu. Podrobnosti o této aktivitě najdete v tématu Aktivita streamování HDInsight.

Aktivita Sparku služby HDInsight

Aktivita HDInsight Spark v kanálu spouští programy Spark ve vašem vlastním clusteru HDInsight. Podrobnosti najdete v tématu Volání programů Spark pomocí Azure Data Factory nebo Azure Synapse Analytics.

Ml Studio (klasické) aktivity

Důležité

Podpora pro Azure Machine Učení Studio (Classic) skončí 31. srpna 2024. Doporučujeme, abyste do tohoto data přešli na Učení Azure Machine.

Od 1. prosince 2021 nemůžete vytvořit nové prostředky machine Učení Studio (klasické) (pracovní prostor a plán webové služby). Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby machine Učení Studio (klasické). Další informace naleznete v tématu:

Dokumentace k sadě Machine Učení Studio (classic) se vyřadí z provozu a nemusí být v budoucnu aktualizována.

Služba umožňuje snadno vytvářet kanály, které používají publikovanou webovou službu ML Studio (klasické) pro prediktivní analýzy. Pomocí aktivity Dávkové spouštění v kanálu můžete vyvolat webovou službu Studio (classic), která provede předpovědi na datech v dávce.

V průběhu času je potřeba prediktivní modely v experimentech bodování v sadě Studio (classic) přetrénovat pomocí nových vstupních datových sad. Po opětovném trénování chcete aktualizovat webovou službu bodování pomocí přetrénovaného modelu strojového učení. Aktivitu Aktualizovat prostředek můžete použít k aktualizaci webové služby pomocí nově natrénovaného modelu.

Podrobnosti o těchto aktivitách sady Studio (classic) najdete v tématu Použití aktivit NÁSTROJE ML Studio (classic).

Aktivita uložená procedura

Pomocí aktivity Uložená procedura SQL Serveru v kanálu Data Factory můžete vyvolat uloženou proceduru v jednom z následujících úložišť dat: Azure SQL Database, Azure Synapse Analytics, SQL Server Database ve vašem podniku nebo virtuálním počítači Azure. Podrobnosti najdete v článku o aktivitě Uložená procedura.

Aktivita U-SQL služby Data Lake Analytics

Aktivita U-SQL služby Data Lake Analytics spouští skript U-SQL v clusteru Azure Data Lake Analytics. Podrobnosti najdete v článku o aktivitě U-SQL služby Data Analytics.

Aktivita poznámkového bloku Azure Synapse

Aktivita poznámkového bloku Azure Synapse v kanálu Synapse spouští poznámkový blok Synapse ve vašem pracovním prostoru Azure Synapse. Viz Transformace dat spuštěním poznámkového bloku Azure Synapse.

Aktivita poznámkového bloku Databricks

Aktivita poznámkového bloku Azure Databricks v kanálu spouští poznámkový blok Databricks ve vašem pracovním prostoru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Viz Transformace dat spuštěním poznámkového bloku Databricks.

Aktivita Databricks Jar

Aktivita Jar Azure Databricks v kanálu spouští sparkový jar v clusteru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Prohlédněte si transformaci dat spuštěním aktivity Jar v Azure Databricks.

Aktivita Pythonu v Databricks

Aktivita Pythonu Azure Databricks v kanálu spouští soubor Pythonu v clusteru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Viz Transformace dat spuštěním aktivity Pythonu v Azure Databricks.

Vlastní aktivita

Pokud potřebujete transformovat data způsobem, který služba Data Factory nepodporuje, můžete vytvořit vlastní aktivitu s vlastní logikou zpracování dat a použít aktivitu v kanálu. Vlastní aktivitu .NET můžete nakonfigurovat tak, aby běžela pomocí služby Azure Batch nebo clusteru Azure HDInsight. Podrobnosti najdete v článku Použití vlastních aktivit.

Můžete vytvořit vlastní aktivitu pro spouštění skriptů jazyka R na svém clusteru HDInsight s nainstalovaným jazykem R. Viz Spuštění skriptu R pomocí kanálů Azure Data Factory a Synapse.

Výpočetní prostředí

Vytvoříte propojenou službu pro výpočetní prostředí a pak použijete propojenou službu při definování aktivity transformace. Existují dva podporované typy výpočetních prostředí.

  • Na vyžádání: V tomto případě je výpočetní prostředí plně spravované službou. Služba ji automaticky vytvoří před odesláním úlohy ke zpracování dat a odebrání po dokončení úlohy. Můžete nakonfigurovat a řídit podrobná nastavení výpočetního prostředí na vyžádání pro spouštění úloh, správu clusteru a spouštěcí akce.
  • Přineste si vlastní: V tomto případě můžete jako propojenou službu zaregistrovat vlastní výpočetní prostředí (například cluster HDInsight). Výpočetní prostředí spravujete vy a služba ho používá k provádění aktivit.

Informace o podporovaných výpočetních službách najdete v článku o propojených výpočetních službách .

Příklad použití aktivity transformace najdete v následujícím kurzu: Kurz: Transformace dat pomocí Sparku