Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
PLATÍ PRO:
Azure Data Factory
Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat přes následné zpracování dat, analýzy v reálném čase, podnikovou inteligenci a reporting. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Důležité
Podpora nástroje Azure Machine Learning Studio (classic) skončí 31. srpna 2024. Doporučujeme, abyste do tohoto data přešli na Azure Machine Learning .
Od 1. prosince 2021 nemůžete vytvářet nové prostředky machine Learning Studia (klasické) (pracovní prostor a plán webových služeb). Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby Machine Learning Studio (klasické). Další informace naleznete v tématu:
- Migrace do Služby Azure Machine Learning z nástroje Machine Learning Studio (Classic)
- Co je Azure Machine Learning?
Dokumentace k nástroji Machine Learning Studio (classic) se vyřadí z provozu a nemusí se v budoucnu aktualizovat.
Přehled
Tento článek vysvětluje aktivity transformace dat v kanálech Azure Data Factory a Synapse, které můžete použít k transformaci a zpracování nezpracovaných dat do předpovědí a přehledů ve velkém měřítku. Aktivita transformace se provádí v výpočetním prostředí, jako je Azure Databricks nebo Azure HDInsight. Obsahuje odkazy na články s podrobnými informacemi o každé aktivitě transformace.
Služba podporuje následující aktivity transformace dat, které je možné přidat do kanálů jednotlivě nebo zřetězených s jinou aktivitou.
Nativní transformace ve službě Azure Data Factory a Azure Synapse Analytics s využitím toků dat
Mapování toků dat
Mapování toků dat jsou vizuálně navržené transformace dat ve službě Azure Data Factory a Azure Synapse. Toky dat umožňují datovým inženýrům vyvíjet grafickou logiku transformace dat bez psaní kódu. Výsledné toky dat jsou spuštěny jako aktivity v potrubích, které používají škálované clustery Spark. Aktivity toku dat je možné zprovoznit prostřednictvím stávajících možností plánování, řízení, toku a monitorování v rámci služby. Další informace najdete v tématu mapování toků dat.
Úprava dat
Power Query ve službě Azure Data Factory umožňuje transformace dat v cloudovém měřítku, což umožňuje iterativní přípravu dat bez kódu v cloudovém měřítku. Transformace dat se integruje s Power Query Online a zpřístupňuje funkce Power Query M pro transformaci dat v cloudovém měřítku prostřednictvím spouštění Sparku. Další informace najdete v tématu Transformace dat ve službě Azure Data Factory.
Poznámka:
Power Query se v současné době podporuje jenom ve službě Azure Data Factory, nikoli ve službě Azure Synapse. Seznam konkrétních funkcí podporovaných v jednotlivých službách najdete v tématu Dostupné funkce v kanálech Azure Data Factory a Azure Synapse Analytics.
Externí transformace
Volitelně můžete ručně kódovat transformace a spravovat externí výpočetní prostředí sami.
Aktivita Hive v HDInsight
Aktivita Hive v kanálu HDInsight spouští dotazy Hive na vašem vlastním clusteru HDInsight nebo na vyžádání v clusteru založeném na Windows nebo Linuxu. Podrobnosti o této aktivitě najdete v článku o aktivitě Hive.
Aktivita Pig služby HDInsight
Aktivita Pig v kanálu HDInsight spouští dotazy Pig na vašem vlastním clusteru nebo podle potřeby v clusteru HDInsight založeném na Windows nebo Linuxu. Podrobnosti o této aktivitě naleznete v článku Aktivita Pig.
Aktivita MapReduce služby HDInsight
Aktivita HDInsight MapReduce v kanálu spouští programy MapReduce na vašem vlastním clusteru HDInsight nebo na vyžádání na clusteru se systémem Windows nebo Linux. Podrobnosti o této aktivitě najdete v článku o aktivitě MapReduce.
Aktivita streamování HDInsight
Aktivita streamování HDInsight v kanálu spouští programy Hadoop Streaming na vašem vlastním clusteru HDInsight nebo na vyžádání, a to na platformě Windows nebo Linux. Podrobnosti o této aktivitě naleznete v Aktivitě streamování HDInsight.
Aktivita Sparku služby HDInsight
Aktivita HDInsight Spark v kanálu spouští programy Spark ve vašem vlastním clusteru HDInsight. Podrobnosti najdete v tématu Volání programů Spark pomocí Azure Data Factory nebo Azure Synapse Analytics.
ML Studio (klasické) aktivity
Důležité
Podpora nástroje Azure Machine Learning Studio (classic) skončí 31. srpna 2024. Doporučujeme, abyste do tohoto data přešli na Azure Machine Learning .
Od 1. prosince 2021 nemůžete vytvářet nové prostředky machine Learning Studia (klasické) (pracovní prostor a plán webových služeb). Až do 31. srpna 2024 můžete dál používat stávající experimenty a webové služby Machine Learning Studio (klasické). Další informace naleznete v tématu:
- Migrace do Služby Azure Machine Learning z nástroje Machine Learning Studio (Classic)
- Co je Azure Machine Learning?
Dokumentace k nástroji Machine Learning Studio (classic) se vyřadí z provozu a nemusí se v budoucnu aktualizovat.
Služba umožňuje snadno vytvářet kanály, které používají publikovanou webovou službu ML Studio (klasické) pro prediktivní analýzy. Pomocí aktivity Batch Execution v pipeline můžete vyvolat webovou službu Studio (classic) ke zpracování predikcí na datech v dávkovém režimu.
V průběhu času je třeba přetrénovat prediktivní modely v hodnotících experimentech sady Studio (classic) pomocí nových vstupních datových souborů. Po opětovném trénování chcete aktualizovat webovou službu bodování pomocí přetrénovaného modelu strojového učení. Aktivitu Aktualizovat prostředek můžete použít k aktualizaci webové služby pomocí nově natrénovaného modelu.
Podrobnosti o těchto aktivitách v sadě Studio (classic) najdete v Použití aktivit ML Studio (classic).
Aktivita uložené procedury
Pomocí aktivity Uložená procedura SQL Serveru v kanálu Data Factory můžete vyvolat uloženou proceduru v jednom z následujících úložišť dat: Azure SQL Database, Azure Synapse Analytics, SQL Server Database ve vašem podniku nebo virtuálním počítači Azure. Podrobnosti najdete v článku o aktivitě "Uložená procedura".
Aktivita U-SQL služby Data Lake Analytics
Aktivita U-SQL služby Data Lake Analytics spouští skript U-SQL v clusteru Azure Data Lake Analytics. Podrobnosti najdete v článku o aktivitě U-SQL služby Data Analytics.
Aktivita poznámkového bloku Azure Synapse
Aktivita poznámkového bloku Azure Synapse v kanálu Synapse spouští poznámkový blok Synapse ve vašem pracovním prostoru Azure Synapse. Viz Transformace dat spuštěním poznámkového bloku Azure Synapse.
Aktivita poznámkového bloku Databricks
Aktivita poznámkového bloku Azure Databricks v datovém toku spouští poznámkový blok Databricks ve vašem pracovním prostoru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Viz Transformace dat spuštěním poznámkového bloku Databricks.
Aktivita Databricks Jar
Aktivita pro Jar soubor Azure Databricks v kanálu pipeline spouští Sparkový JAR v clusteru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Prohlédněte si transformaci dat spuštěním aktivity Jar v Azure Databricks.
Aktivita Pythonu v Databricks
Pythonová aktivita Azure Databricks v rámci datového kanálu spouští soubor Python v clusteru Azure Databricks. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku. Viz Transformujte data spuštěním Pythonové aktivity v Azure Databricks.
Vlastní aktivita
Pokud potřebujete transformovat data způsobem, který služba Data Factory nepodporuje, můžete vytvořit vlastní aktivitu s vlastní logikou zpracování dat a použít aktivitu v kanálu. Vlastní aktivitu .NET můžete nakonfigurovat tak, aby běžela pomocí služby Azure Batch nebo clusteru Azure HDInsight. Podrobnosti najdete v článku Použití vlastních aktivit.
Můžete vytvořit vlastní aktivitu pro spouštění skriptů jazyka R na svém clusteru HDInsight s nainstalovaným jazykem R. Viz Spuštění skriptu R pomocí kanálů Azure Data Factory a Synapse.
Výpočetní prostředí
Vytvoříte propojenou službu pro výpočetní prostředí a pak použijete propojenou službu při definování aktivity transformace. Existují dva podporované typy výpočetních prostředí.
- Na vyžádání: V tomto případě je výpočetní prostředí plně spravované službou. Služba ji automaticky vytvoří před odesláním úlohy ke zpracování dat a odebrání po dokončení úlohy. Můžete nakonfigurovat a řídit podrobná nastavení výpočetního prostředí na vyžádání pro spouštění úloh, správu clusteru a spouštěcí akce.
- Přineste si vlastní: V tomto případě můžete jako propojenou službu zaregistrovat vlastní výpočetní prostředí (například cluster HDInsight). Výpočetní prostředí spravujete vy a služba ho používá k provádění aktivit.
Informace o podporovaných výpočetních službách najdete v článku o propojených výpočetních službách .
Související obsah
Příklad použití aktivity transformace najdete v následujícím kurzu: Kurz: Transformace dat pomocí Sparku