Sdílet prostřednictvím


Prostředí Integration Runtime ve službě Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF se můžou upgradovat na Fabric pro přístup k novým funkcím v oblasti datové vědy, analýzy v reálném čase a reportingu.

Prostředí Integration Runtime (IR) je výpočetní infrastruktura používaná kanály Azure Data Factory a Azure Synapse, které poskytují následující možnosti integrace dat v různých síťových prostředích:

  • Tok dat: spusťte Tok dat ve spravovaném výpočetním prostředí Azure.
  • Přesun dat: Kopírování dat mezi úložišti dat ve veřejné nebo privátní síti (pro místní i virtuální privátní sítě) Služba poskytuje podporu integrovaných konektorů, převodu formátu, mapování sloupců a výkonného a škálovatelného přenosu dat.
  • Odesílání aktivit: Odesílání a monitorování aktivit transformace běžících na různých výpočetních službách, jako jsou Azure Databricks, Azure HDInsight, ML Studio (classic), Azure SQL Database, SQL Server a další.
  • Spouštění balíčků služby SSIS: nativní spouštění balíčků služby SQL Server Integration Services (SSIS) ve spravovaném výpočetním prostředí Azure.

V kanálech Data Factory a Synapse definuje aktivita akci, která se má provést. Propojená služba určuje cílové úložiště dat nebo výpočetní službu. Prostředí Integration Runtime poskytuje most mezi aktivitami a propojenými službami. Propojená služba nebo aktivita odkazuje a poskytuje výpočetní prostředí, ve kterém se aktivita spouští přímo nebo odesílá. Toto přidružení umožňuje provádět aktivitu v nejbližší možné oblasti k cílovému úložišti dat nebo výpočetní službě, aby se maximalizoval výkon a zároveň bylo možné flexibilně splnit požadavky na zabezpečení a dodržování předpisů.

Prostředí běhu integrace lze vytvořit přímo v uživatelském rozhraní Azure Data Factory a Azure Synapse prostřednictvím centra pro správu, stejně jako z aktivit, datových sad nebo toků dat, které na ně odkazují.

Typy modulu runtime integrace

Data Factory nabízí tři typy prostředí Integration Runtime (IR) a měli byste zvolit typ, který nejlépe vyhovuje vašim možnostem integrace dat a požadavkům na síťové prostředí. Existují tři typy prostředí IR:

  • Azure
  • Vlastní hostování
  • Azure-SSIS

Poznámka:

Kanály Synapse v současné době podporují pouze prostředí Azure nebo místní prostředí Integration Runtime.

Následující tabulka obsahuje informace o podpoře funkcí a sítí pro každý typ prostředí Integration Runtime:

Typ IR Podpora veřejné sítě Podpora služby Private Link
Azure Tok dat
Pohyb dat
Distribuce aktivit
Tok dat
Pohyb dat
Distribuce aktivit
Vlastní hostování Pohyb dat
Distribuce aktivit
Pohyb dat
Distribuce aktivit
Azure-SSIS Spouštění balíčků služby SSIS Spouštění balíčků služby SSIS

Poznámka:

Odchozí ovládací prvky se liší podle služby pro Azure IR. V Synapse mají pracovní prostory možnosti omezit odchozí provoz ze spravované virtuální sítě při využití Azure IR. Ve službě Data Factory se všechny porty otevírají pro odchozí komunikaci při využití prostředí Azure IR. Prostředí Azure-SSIS IR je možné integrovat s vaší virtuální sítí, aby bylo možné poskytovat ovládací prvky odchozí komunikace .

Prostředí Azure Integration Runtime

Prostředí Azure Integration Runtime může:

  • Spouštění toků dat v Azure
  • Spouštění aktivit kopírování mezi cloudovými úložišti dat
  • Odešlete následující aktivity transformace ve veřejné síti:
    • Vlastní aktivita .NET
    • Aktivita funkce Azure
    • Aktivita poznámkového bloku Databricks, Jar nebo Pythonu
    • Aktivita U-SQL služby Data Lake Analytics
    • Aktivita získání metadat
    • Aktivita služby HDInsight Hive
    • Aktivita HDInsight Pig
    • Aktivita MapReduce služby HDInsight
    • Aktivita Spark služby HDInsight
    • Aktivita streamování HDInsight
    • Aktivita Vyhledávání
    • Aktivita dávkového spouštění nástroje Machine Learning Studio (Classic)
    • Aktivita aktualizace prostředku nástroje Machine Learning Studio (Classic)
    • Aktivita uložené procedury
    • Aktivita ověřování
    • Webová aktivita

Síťové prostředí Azure IR

Azure Integration Runtime podporuje připojení k úložištím dat a výpočetním službám s veřejnými dostupnými koncovými body. Když povolíte spravovanou virtuální síť, prostředí Azure Integration Runtime podporuje připojení k úložištím dat pomocí služby Private Link v prostředí privátní sítě. V Synapse mají pracovní prostory možnosti omezit odchozí provoz z virtuální sítě spravované technologií IR. Ve službě Data Factory jsou všechny porty otevřené pro odchozí komunikaci. Prostředí Azure-SSIS IR je možné integrovat s vaší virtuální sítí, aby poskytovalo řízení odchozí komunikace .

Výpočetní prostředky a škálování prostředí Azure IR

Prostředí Azure Integration Runtime poskytuje v rámci Azure plně spravované výpočetní prostředí bez serveru. Nemusíte se starat o zřizování infrastruktury, instalaci softwaru, opravy nebo škálování kapacity. Kromě toho platíte pouze během skutečného využití.

Prostředí Azure Integration Runtime poskytuje nativní výpočetní prostředí pro zabezpečené, spolehlivé a vysoce výkonné přesuny dat mezi cloudovými úložišti dat. Můžete nastavit, kolik jednotek integrace dat se má použít v aktivitě kopírování a velikost výpočetních prostředků azure IR se elasticky škáluje odpovídajícím způsobem, aniž byste museli explicitně upravit velikost prostředí Azure Integration Runtime.

Odeslání aktivity je jednoduchá operace pro směrování aktivity do cílové výpočetní služby, takže pro tento scénář není potřeba vertikálně navýšit kapacitu výpočetních prostředků.

Informace o vytváření a konfiguraci prostředí Azure IR najdete v tématu Vytvoření a konfigurace prostředí Azure Integration Runtime.

Poznámka:

Prostředí Azure Integration Runtime má vlastnosti související s prostředím runtime toku dat, které definuje základní výpočetní infrastrukturu, která se používá ke spouštění toků dat.

Vlastní hostovaný integrační modul runtime

Samoobslužně hostovaný IR je schopen:

  • Spouštění aktivity kopírování mezi úložišti dat v cloudu a úložištěm dat v privátní síti.
  • Spouštění následující transformační aktivity proti výpočetním zdrojům na místních systémech nebo v Azure Virtual Network:
    • Aktivita funkce Azure
    • Vlastní aktivita (běží ve službě Azure Batch)
    • Aktivita U-SQL služby Data Lake Analytics
    • Aktivita získání metadat
    • Aktivita HIVe služby HDInsight (BYOC –Přineste si vlastní cluster)
    • Aktivita Pig služby HDInsight (BYOC)
    • Aktivita MapReduce služby HDInsight (BYOC)
    • Aktivita Sparku služby HDInsight (BYOC)
    • Aktivita streamování služby HDInsight (BYOC)
    • Aktivita Vyhledávání
    • Aktivita dávkového spouštění nástroje Machine Learning Studio (Classic)
    • Aktivita aktualizace prostředku nástroje Machine Learning Studio (Classic)
    • Aktivita spuštění kanálu Machine Learning
    • Aktivita uložené procedury
    • Aktivita ověřování
    • Webová aktivita

Poznámka:

Použití místního prostředí Integration Runtime k podpoře úložišť dat, která vyžadují vlastní ovladač, jako je SAP Hana, MySQL atd. Další informace najdete v podporovaných úložištích dat.

Poznámka:

Prostředí JRE (Java Runtime Environment) je závislost místního prostředí IR. Ujistěte se, že máte na stejném hostiteli nainstalovaný JRE.

Síťové prostředí místního prostředí IR

Pokud chcete bezpečně integrovat data v prostředí privátní sítě, které nemá přímý přehled z prostředí veřejného cloudu, můžete nainstalovat místní prostředí IR do místního prostředí za bránou firewall nebo do virtuální privátní sítě. "Samosprávné Integration Runtime vytváří pouze odchozí HTTP připojení k internetu."

Výpočetní prostředky a škálování místního prostředí IR

Nainstalujte místní prostředí IR na místní počítač nebo virtuální počítač v privátní síti. V současné době se místní prostředí IR podporuje jenom v operačním systému Windows. Za účelem vysoké dostupnosti a škálovatelnosti můžete škálovat na více instancí prostředí IR v místním prostředí tak, že logickou instanci přidružíte k víc místním počítačům v režimu aktivní-aktivní. Další informace najdete v článku o tom, jak vytvořit a nakonfigurovat místní prostředí IR , kde najdete podrobnosti.

Rozhraní Azure-SSIS Integration Runtime

Pokud chcete navýšit a přesunout stávající úlohy služby SSIS, můžete vytvořit prostředí Azure SSIS IR pro nativní spouštění balíčků služby SSIS.

Síťové prostředí Azure-SSIS IR

Prostředí Azure-SSIS IR je možné zřídit buď ve veřejné síti, nebo v privátní síti. Místní přístup k datům je podporovaný připojením Azure-SSIS IR k virtuální síti, která je připojená k místní síti.

Výpočetní prostředky a škálování prostředí Azure-SSIS IR

Prostředí Azure-SSIS IR je plně spravovaný cluster virtuálních počítačů Azure vyhrazených ke spouštění balíčků SSIS. Pro katalog projektů a balíčků služby SSIS (SSISDB) můžete použít vlastní službu Azure SQL Database nebo spravovanou instanci SQL. Můžete vertikálně navýšit výkon výpočetního prostředí tím, že určíte velikost uzlu a pak určíte počet uzlů v clusteru. Náklady na provoz prostředí Azure-SSIS Integration Runtime můžete spravovat tak, že ho zastavíte a spustíte podle požadavků.

Další informace najdete v tématu Vytvoření a konfigurace prostředí Azure-SSIS IR. Po vytvoření můžete nasazovat a spravovat stávající balíčky SSIS beze změny pomocí známých nástrojů, jako jsou SQL Server Data Tools (SSDT) a SQL Server Management Studio (SSMS), stejně jako v místním prostředí SSIS.

Další informace o modulu runtime Azure-SSIS najdete v následujících článcích:

Umístění modulu runtime integrace

Vztah mezi umístěním továrny a umístěním IR

Když vytvoříte instanci služby Data Factory nebo pracovního prostoru Synapse, musíte zadat její umístění. Metadata pro instanci se ukládají zde a odtud se zahajuje spuštění pipeline. Metadata se ukládají jenom ve vybrané oblasti a neukládají se v jiných oblastech.

Kanál mezitím může přistupovat k úložištím dat a výpočetním službám v jiných oblastech Azure a přesouvat data mezi úložišti dat nebo zpracovávat data pomocí výpočetních služeb. Toto chování je realizováno prostřednictvím globálně dostupného prostředí IR k zajištění souladu s předpisy pro data, efektivity a snížení nákladů na výstup z sítě.

Umístění prostředí IR definuje umístění back-endového výpočetního prostředí a místo, kde se provádí přesun dat, odesílání aktivit a spouštění balíčků SSIS. Umístění prostředí IR se může lišit od umístění služby Data Factory, do které patří.

Umístění prostředí Azure IR

Můžete nastavit oblast umístění prostředí Azure IR, v takovém případě se provádění nebo odeslání aktivity provede ve vybrané oblasti.

Výchozí hodnota je automatické obnovení prostředí Azure IR ve veřejné síti. S touto možností:

  • V případě aktivity kopírování se snažíme automaticky zjistit umístění cílového úložiště dat a poté použít prostředí IR ve stejné oblasti, pokud je to možné, nebo v nejbližší geografické oblasti, jinak, pokud není oblast cílového úložiště dat zjistitelná, použije se místo toho prostředí IR v oblasti instance.

    Například v oblasti USA – východ se vytvořil pracovní prostor Data Factory nebo Synapse.

    • Když kopírujete data do objektu blob Azure v oblasti USA – západ, pokud se zjistí, že objekt blob je v oblasti USA – západ, aktivita kopírování se spustí v prostředí IR v oblasti USA – západ; Pokud detekce oblastí selže, aktivita kopírování se spustí v prostředí IR v oblasti USA – východ.
    • Při kopírování dat do Salesforce, pro které oblast není zjistitelná, se aktivita kopírování spustí v prostředí IR v oblasti USA – východ.

    Tip

    Pokud máte přísné požadavky na dodržování předpisů pro data a potřebujete zajistit, aby data neopustála určitou zeměpisnou oblast, můžete explicitně vytvořit prostředí Azure IR v určité oblasti a odkazovat propojenou službu na toto prostředí IR pomocí vlastnosti ConnectVia. Pokud například chcete zkopírovat data z objektu blob v oblasti UK South do pracovního prostoru Azure Synapse v oblasti UK South a chcete zajistit, aby data neopustila Spojené království, vytvořte prostředí Azure IR v oblasti UK South a propojte obě propojené služby s tímto IR.

  • Pro vyhledávání/GetMetadata/odstranění aktivit (aktivity kanálu), odesílání aktivit transformace (externí aktivity) a operace tvorby (test připojení, procházení seznamu složek a seznamu tabulek a náhled dat) se používá IR prostředí ve stejné oblasti jako datová továrna nebo pracovní prostor Synapse.

  • Pro Tok dat se používá prostředí IR v oblasti pracovního prostoru Data Factory nebo Synapse.

    Tip

    Osvědčeným postupem je zajistit, aby toky dat běžely ve stejné oblasti jako odpovídající úložiště dat, pokud je to možné. Můžete toho dosáhnout buď pomocí automatického obnovení prostředí Azure IR (pokud je umístění úložiště dat stejné jako umístění data factory nebo pracovního prostoru Synapse), nebo vytvořením nové instance Azure IR ve stejné oblasti jako úložiště dat a následným spuštěním toků dat.

Pokud povolíte spravovanou virtuální síť s autonomním řešením pro službu Azure IR, použije se služba IR v oblasti pracovního prostoru Data Factory nebo Synapse.

Můžete monitorovat, které umístění IR se projeví během vykonávání aktivity v zobrazení monitorování aktivity v kanálu v Data Factory Studio nebo Synapse Studio, nebo v datové části monitorování aktivity.

Umístění samoobslužného provozního prostředí IR

Místní prostředí IR je logicky zaregistrované v pracovním prostoru Data Factory nebo Synapse a výpočetní prostředky, které se používají k podpoře jeho funkcí, poskytujete vy. Proto neexistuje žádná explicitní vlastnost umístění místního prostředí IR.

Pokud se self-hostované IR používá k přesunu dat, extrahuje data ze zdroje a zapisuje je do cíle.

Umístění prostředí Azure-SSIS IR

Poznámka:

V kanálech Synapse se v současné době nepodporují prostředí Azure-SSIS Integration Runtime.

Pro vysoký výkon pracovních postupů extrakce, transformace a načítání (ETL) je velmi důležitý výběr správného umístění prostředí Azure-SSIS IR.

  • Umístění prostředí Azure-SSIS IR nemusí být stejné jako umístění služby Data Factory, ale mělo by to být stejné jako umístění vaší vlastní služby Azure SQL Database nebo spravované instance SQL, ve které se nachází databáze SSISDB. Díky tomu může prostředí Azure-SSIS Integration Runtime snadno přistupovat ke službě SSISDB bez nadměrného provozu mezi různými umístěními.
  • Pokud nemáte existující službu SQL Database nebo spravovanou instanci SQL, ale máte místní zdroje a cíle dat, měli byste vytvořit novou službu Azure SQL Database nebo spravovanou instanci SQL ve stejném umístění virtuální sítě připojené k místní síti. Tímto způsobem můžete vytvořit prostředí Azure-SSIS IR pomocí nové služby Azure SQL Database nebo spravované instance SQL a připojit se k této virtuální síti. Všechno je ve stejném umístění, minimalizuje přesun dat a související náklady a současně maximalizuje výkon.
  • Pokud umístění existující služby Azure SQL Database nebo spravované instance SQL není stejné jako umístění virtuální sítě připojené k vaší místní síti, nejprve vytvořte prostředí Azure-SSIS IR pomocí existující služby Azure SQL Database nebo spravované instance SQL a připojte se k jiné virtuální síti ve stejném umístění. Pak nakonfigurujte virtuální síť pro připojení k virtuální síti mezi různými umístěními.

Následující diagram znázorňuje nastavení umístění pro službu Data Factory a její prostředí Integration Runtime:

Zobrazuje umístění prostředí Integration Runtime služby Data Factory.

Určení modulu runtime integrace, který se má použít

Pokud aktivita přidruží více typů prostředí Integration Runtime, přeloží se na jeden z nich. Místní prostředí Integration Runtime má přednost před prostředím Azure Integration Runtime v instancích pracovního prostoru Azure Data Factory nebo Synapse pomocí spravované virtuální sítě. A ten má přednost před globálním prostředím Azure Integration Runtime.

Například jedna aktivita kopírování se používá ke kopírování dat ze zdroje do jímky. Globální prostředí Azure Integration Runtime je přidruženo k propojené službě pro zdroj, a když je prostředí Azure Integration Runtime v rámci spravované virtuální sítě Azure Data Factory přidruženo k propojené službě pro zasobník, výsledkem je, že jak propojené služby pro zdroj, tak pro zasobník používají prostředí Azure Integration Runtime ve spravované virtuální síti Azure Data Factory. Pokud je ale místní prostředí Integration Runtime přidružené k propojené službě pro zdroj, pak propojená služba zdroje i jímky používají místní prostředí Integration Runtime.

aktivita Copy

Aktivita Copy vyžaduje, aby služby propojené se zdrojem i jímkou definovaly směr toku dat. Pomocí následující logiky se dá určit, která instance prostředí Integration Runtime se ke kopírování používá:

  • Kopírování mezi dvěma cloudovými zdroji dat: pokud jak zdrojové, tak i cílové propojené služby používají prostředí Azure IR, použije se regionální prostředí Azure IR, pokud bylo zadáno, nebo se umístění prostředí Azure IR automaticky určí, pokud byla zvolena možnost Autoresolve IR (výchozí), jak je popsáno v části Umístění prostředí Integration Runtime.
  • Kopírování mezi cloudovým zdrojem dat a zdrojem dat v privátní síti: pokud zdrojová nebo jímka propojená služba odkazuje na místní prostředí IR, aktivita kopírování se spustí v místním prostředí IR.
  • Kopírování mezi dvěma zdroji dat v privátní síti: Zdrojová i cílová propojená služba musí odkazovat na stejnou instanci prostředí Integration Runtime a toto prostředí se používá k provedení aktivity kopírování.

Aktivity Lookup a GetMetadata

Aktivity Lookup a GetMetadata se provádí v prostředí Integration Runtime přidruženém k propojené službě úložiště dat.

Aktivita externí transformace

Každá aktivita externí transformace, která využívá externí výpočetní modul, má cílovou propojenou výpočetní službu, která odkazuje na prostředí Integration Runtime. Tato IR instance určuje umístění, odkud je zasílána externí ručně zakódovaná transformační aktivita.

Aktivita toku dat

Aktivity toku dat se spouštějí v přidruženém prostředí Azure Integration Runtime. Vlastnosti toku dat ve vašem prostředí Azure IR určují využité výpočetní prostředky Sparku a jsou plně spravované službou.

Integration Runtime v rámci CI/CD

Prostředí integrace runtime se často nemění a jsou podobná ve všech fázích CI/CD. Data Factory vyžaduje, abyste měli stejný název a typ prostředí Integration Runtime ve všech fázích CI/CD. Pokud chcete sdílet prostředí Integration Runtime napříč všemi fázemi, zvažte použití vyhrazené továrny pouze k tomu, aby obsahovala sdílené prostředí Integration Runtime. Tuto sdílenou továrnu pak můžete použít ve všech vašich prostředích jako propojený typ prostředí Integration Runtime.

Podívejte se na následující články: