Transformace dat v Azure Data Factory a Azure Synapse Analytics

VZTAHUJE SE NA: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.

Důležité

Podpora azure Machine Learning Studio (classic) skončí 31. srpna 2024. Do tohoto data doporučujeme přejít na Azure Machine Learning.

Od 1. prosince 2021 nemůžete vytvářet nové prostředky Machine Learning Studio (klasické) jako pracovní prostor a plán webových služeb. Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby Machine Learning Studio (klasické). Další informace naleznete v tématu:

Machine Learning Studio (klasická) dokumentace se vyřadí z provozu a v budoucnu se nemusí aktualizovat.

Přehled

Tento článek vysvětluje aktivity transformace dat v kanálech Azure Data Factory a Synapse, které můžete použít k transformaci a zpracování nezpracovaných dat na předpovědi a přehledy ve velkém měřítku. Aktivita transformace se provádí v výpočetním prostředí, jako je Azure Databricks nebo Azure HDInsight. Obsahuje odkazy na články s podrobnými informacemi o každé aktivitě transformace.

Služba podporuje následující aktivity transformace dat, které je možné přidat do kanálů jednotlivě nebo zřetězených s jinou aktivitou.

Provádějte transformace přímo v Azure Data Factory a Azure Synapse Analytics pomocí toků dat

Mapování toků dat

Mapování toků dat jsou vizuálně navržené transformace dat v Azure Data Factory a Azure Synapse. Toky dat umožňují datovým inženýrům vyvíjet grafickou logiku transformace dat bez psaní kódu. Výsledné toky dat jsou spuštěny jako aktivity v potrubích, které používají škálované clustery Spark. Aktivity toku dat je možné zprovoznit prostřednictvím stávajících možností plánování, řízení, toku a monitorování v rámci služby. Další informace najdete v tématu mapování toků dat.

Úprava dat

Power Query v Azure Data Factory umožňuje zpracování dat v měřítku cloudu, což vám umožňuje provádět iterativní přípravu dat bez kódu. Úprava dat se integruje s Power Query Online a zpřístupňuje funkce jazyka M Power Query pro zpracování dat v cloudovém měřítku prostřednictvím spuštění Spark. Další informace najdete v tématu data wrangling in Azure Data Factory.

Poznámka:

Power Query se v současné době podporuje jenom v Azure Data Factory a ne v Azure Synapse. Seznam konkrétních funkcí podporovaných v jednotlivých službách najdete v tématu Dostupné funkce v Azure Data Factory & kanály Azure Synapse Analytics.

Externí transformace

Volitelně můžete ručně kódovat transformace a spravovat externí výpočetní prostředí sami.

Aktivita Hive v HDInsight

Aktivita HDInsight Hive v kanálu spouští dotazy Hive na vašem vlastním clusteru HDInsight nebo na clusteru HDInsight založeném na Windows nebo Linuxu, který se poskytuje na vyžádání. Podrobnosti o této aktivitě najdete v článku o aktivitě Hive.

Aktivita Pig služby HDInsight

Aktivita HDInsight Pig v pipeline spouští dotazy Pig na vašem vlastním nebo na vyžádání nakonfigurovaném clusteru HDInsight na bázi Windows/Linux. Podrobnosti o této aktivitě naleznete v článku Aktivita Pig.

Aktivita MapReduce služby HDInsight

Aktivita HDInsight MapReduce v rámci kanálu spouští programy MapReduce ve vašem vlastním nebo na vyžádání Windows nebo Linuxovém clusteru HDInsight. Podrobnosti o této aktivitě najdete v článku o aktivitě MapReduce.

Aktivita streamování HDInsight

Aktivita HDInsight Streaming v kanálu spouští programy Hadoop Streaming na vašem vlastním nebo na vyžádání dostupném HDInsight clusteru s Windows nebo Linux. Podrobnosti o této aktivitě naleznete v Aktivitě streamování HDInsight.

Aktivita Sparku služby HDInsight

Aktivita HDInsight Spark v kanálu spouští programy Spark ve vašem vlastním clusteru HDInsight. Podrobnosti najdete v tématu Spouštění Spark programů s Azure Data Factory nebo Azure Synapse Analytics.

ML Studio (klasické) aktivity

Důležité

Podpora azure Machine Learning Studio (classic) skončí 31. srpna 2024. Do tohoto data doporučujeme přejít na Azure Machine Learning.

Machine Learning Studio (klasická) dokumentace se vyřadí z provozu a v budoucnu se nemusí aktualizovat.

Služba umožňuje snadno vytvářet kanály, které používají publikovanou webovou službu ML Studio (klasické) pro prediktivní analýzy. Pomocí aktivity Batch Execution v pipeline můžete vyvolat webovou službu Studio (classic) ke zpracování predikcí na datech v dávkovém režimu.

V průběhu času je třeba přetrénovat prediktivní modely v hodnotících experimentech sady Studio (classic) pomocí nových vstupních datových souborů. Po opětovném trénování chcete aktualizovat webovou službu bodování pomocí přetrénovaného modelu strojového učení. Aktivitu Aktualizovat prostředek můžete použít k aktualizaci webové služby pomocí nově natrénovaného modelu.

Podrobnosti o těchto aktivitách v sadě Studio (classic) najdete v Použití aktivit ML Studio (classic).

Aktivita uložené procedury

Pomocí aktivity SQL Server Uložená procedura v kanálu služby Data Factory můžete vyvolat uloženou proceduru v jednom z následujících úložišť dat: Azure SQL Database, Azure Synapse Analytics, SQL Server Database ve vašem podniku nebo ve virtuálním počítači Azure. Podrobnosti najdete v článku o aktivitě "Uložená procedura".

Aktivita poznámkového bloku Azure Synapse

Aktivita poznámkového bloku Azure Synapse v kanálu Synapse spouští poznámkový blok Synapse ve vašem pracovním prostoru Azure Synapse. Prohlédněte si, jak Transformujte data spuštěním poznámkového bloku Azure Synapse.

Aktivita poznámkového bloku Databricks

Aktivita poznámkového bloku Azure Databricks v kanálu spouští poznámkový blok Databricks ve vašem pracovním prostoru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Viz Transformace dat spuštěním poznámkového bloku Databricks.

Aktivita Databricks Jar

Aktivita Azure Databricks Jar v rámci pipeline spouští Spark Jar ve vašem clusteru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Podívejte se na transformaci dat spuštěním aktivity Jar v Azure Databricks.

Aktivita Python Databricks

Aktivita Azure Databricks Python v kanálu spouští v clusteru Azure Databricks soubor Python. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Viz Transformace dat spuštěním Pythonové aktivity v Azure Databricks.

Vlastní aktivita

Pokud potřebujete transformovat data způsobem, který služba Data Factory nepodporuje, můžete vytvořit vlastní aktivitu s vlastní logikou zpracování dat a použít aktivitu v kanálu. Vlastní aktivitu .NET můžete nakonfigurovat tak, aby běžela pomocí služby Azure Batch nebo clusteru Azure HDInsight. Podrobnosti najdete v článku Použití vlastních aktivit.

Můžete vytvořit vlastní aktivitu pro spouštění skriptů jazyka R na svém clusteru HDInsight s nainstalovaným jazykem R. Viz Spuštění skriptu jazyka R pomocí kanálů Azure Data Factory a Synapse.

Výpočetní prostředí

Vytvoříte propojenou službu pro výpočetní prostředí a pak použijete propojenou službu při definování aktivity transformace. Existují dva podporované typy výpočetních prostředí.

Na vyžádání: V tomto případě je výpočetní prostředí plně spravované službou. Služba ji automaticky vytvoří před odesláním úlohy ke zpracování dat a odebrání po dokončení úlohy. Můžete nakonfigurovat a řídit podrobná nastavení výpočetního prostředí na vyžádání pro spouštění úloh, správu clusteru a spouštěcí akce.
Přineste si vlastní: V tomto případě můžete jako propojenou službu zaregistrovat vlastní výpočetní prostředí (například cluster HDInsight). Výpočetní prostředí spravujete vy a služba ho používá k provádění aktivit.

Informace o podporovaných výpočetních službách najdete v článku o propojených výpočetních službách .

Příklad použití aktivity transformace najdete v následujícím kurzu: Kurz: Transformace dat pomocí Sparku

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-06-03