Prostředí Integration Runtime ve službě Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Prostředí Integration Runtime (IR) je výpočetní infrastruktura používaná kanály Azure Data Factory a Azure Synapse, které poskytují následující možnosti integrace dat v různých síťových prostředích:

  • Tok dat: Spusťte Tok dat ve spravovaném výpočetním prostředí Azure.
  • Přesun dat: Kopírování dat mezi úložišti dat ve veřejných nebo privátních sítích (pro místní i virtuální privátní sítě) Služba poskytuje podporu integrovaných konektorů, převodu formátu, mapování sloupců a výkonného a škálovatelného přenosu dat.
  • Odesílání aktivit: Odesílání a monitorování aktivit transformace běžících na různých výpočetních službách, jako jsou Azure Databricks, Azure HDInsight, ML Studio (classic), Azure SQL Database, SQL Server a další.
  • Spouštění balíčků služby SSIS: nativní spouštění balíčků služby SQL Server Integration Services (SSIS) ve spravovaném výpočetním prostředí Azure.

V kanálech Data Factory a Synapse definuje aktivita akci, která se má provést. Propojená služba určuje cílové úložiště dat nebo výpočetní službu. Prostředí Integration Runtime poskytuje most mezi aktivitami a propojenými službami. Odkazuje na ni propojená služba nebo aktivita a poskytuje výpočetní prostředí, ve kterém se aktivita spouští přímo nebo odesílá. To umožňuje provádět aktivitu v nejbližší možné oblasti k cílovému úložišti dat nebo výpočetní službě, aby se maximalizoval výkon a zároveň bylo možné flexibilně splnit požadavky na zabezpečení a dodržování předpisů.

Prostředí Integration Runtime je možné vytvářet v uživatelském rozhraní Azure Data Factory a Azure Synapse přímo prostřednictvím centra pro správu i ze všech aktivit, datových sad nebo toků dat, které na ně odkazují.

Typy modulu runtime integrace

Data Factory nabízí tři typy prostředí Integration Runtime (IR) a měli byste zvolit typ, který nejlépe vyhovuje vašim možnostem integrace dat a požadavkům na síťové prostředí. Existují tři typy prostředí IR:

  • Azure
  • V místním prostředí
  • Azure-SSIS

Poznámka:

Kanály Synapse v současné době podporují pouze prostředí Azure nebo místní prostředí Integration Runtime.

Následující tabulka obsahuje informace o podpoře funkcí a sítí pro každý typ prostředí Integration Runtime:

Typ prostředí IR Podpora veřejné sítě Podpora služby Private Link
Azure Tok dat
Pohyb dat
Odesílání aktivit
Tok dat
Pohyb dat
Odesílání aktivit
V místním prostředí Pohyb dat
Odesílání aktivit
Pohyb dat
Odesílání aktivit
Azure-SSIS Spouštění balíčků služby SSIS Spouštění balíčků služby SSIS

Poznámka:

Odchozí ovládací prvky se liší podle služby pro Azure IR. V Synapse mají pracovní prostory možnosti omezit odchozí provoz ze spravované virtuální sítě při využití Azure IR. Ve službě Data Factory se všechny porty otevírají pro odchozí komunikaci při využití prostředí Azure IR. Prostředí Azure-SSIS IR je možné integrovat s vaší virtuální sítí za účelem poskytování odchozích komunikačních ovládacích prvků.

Prostředí Azure Integration Runtime

Prostředí Azure Integration Runtime může:

  • Spouštění Tok dat v Azure
  • Spouštění aktivit kopírování mezi cloudovými úložišti dat
  • Odešlete následující aktivity transformace ve veřejné síti:
    • Vlastní aktivita .NET
    • Aktivita funkce Azure
    • Aktivita poznámkového bloku Databricks, Jar nebo Pythonu
    • Aktivita U-SQL služby Data Lake Analytics
    • Aktivita získání metadat
    • Aktivita Hivu služby HDInsight
    • Aktivita Pig služby HDInsight
    • Aktivita MapReduce služby HDInsight
    • Aktivita Sparku služby HDInsight
    • Aktivita streamování HDInsight
    • Aktivita Lookup
    • Aktivita dávkového spouštění nástroje Machine Učení Studio (Classic)
    • Aktivita prostředku aktualizace nástroje Machine Učení Studio (Classic)
    • Aktivita Uložená procedura
    • Aktivita ověřování
    • Webová aktivita

Síťové prostředí Azure IR

Azure Integration Runtime podporuje připojení k úložištím dat a výpočetním službám s veřejnými dostupnými koncovými body. Povolení spravované virtuální sítě azure Integration Runtime podporuje připojení k úložištím dat pomocí služby private link v prostředí privátní sítě. V Synapse mají pracovní prostory možnosti omezit odchozí provoz z virtuální sítě spravované technologií IR. Ve službě Data Factory jsou všechny porty otevřené pro odchozí komunikaci. Prostředí Azure-SSIS IR je možné integrovat s vaší virtuální sítí a poskytovat tak ovládací prvky odchozí komunikace .

Výpočetní prostředky a škálování prostředí Azure IR

Prostředí Azure Integration Runtime poskytuje v rámci Azure plně spravované výpočetní prostředí bez serveru. Nemusíte se starat o zřizování infrastruktury, instalaci softwaru, opravy nebo škálování kapacity. Kromě toho platíte jenom po dobu, kdy prostředí opravdu používáte.

Prostředí Azure Integration Runtime poskytuje nativní výpočetní prostředí pro zabezpečené, spolehlivé a vysoce výkonné přesuny dat mezi cloudovými úložišti dat. Můžete nastavit, kolik jednotek integrace dat se má použít v aktivitě kopírování a velikost výpočetních prostředků azure IR se elasticky škáluje odpovídajícím způsobem, aniž byste museli explicitně upravit velikost prostředí Azure Integration Runtime.

Odeslání aktivity je jednoduchá operace pro směrování aktivity do cílové výpočetní služby, takže pro tento scénář není potřeba vertikálně navýšit kapacitu výpočetních prostředků.

Informace o vytváření a konfiguraci prostředí Azure IR najdete v tématu Vytvoření a konfigurace prostředí Azure Integration Runtime.

Poznámka:

Prostředí Azure Integration Runtime má vlastnosti související s modulem runtime Tok dat, který definuje základní výpočetní infrastrukturu, která by se použila ke spouštění toků dat.

Modul runtime integrace v místním prostředí

Prostředí IR v místním prostředí nabízí tyto funkce:

  • Spouštění aktivity kopírování mezi úložišti dat v cloudu a úložištěm dat v privátní síti.
  • Odesílání následujících transformačních aktivit proti výpočetním prostředkům v místním prostředí nebo ve službě Azure Virtual Network:
    • Aktivita funkce Azure
    • Vlastní aktivita (běží ve službě Azure Batch)
    • Aktivita U-SQL služby Data Lake Analytics
    • Aktivita získání metadat
    • Aktivita HIVe služby HDInsight (BYOC –Přineste si vlastní cluster)
    • Aktivita Pig služby HDInsight (BYOC)
    • Aktivita MapReduce služby HDInsight (BYOC)
    • Aktivita Sparku služby HDInsight (BYOC)
    • Aktivita streamování služby HDInsight (BYOC)
    • Aktivita Lookup
    • Aktivita dávkového spouštění nástroje Machine Učení Studio (Classic)
    • Aktivita prostředku aktualizace nástroje Machine Učení Studio (Classic)
    • Aktivita spuštění kanálu Učení počítače
    • Aktivita Uložená procedura
    • Aktivita ověřování
    • Webová aktivita

Poznámka:

Použití místního prostředí Integration Runtime k podpoře úložišť dat, která vyžadují vlastní ovladač, jako je SAP Hana, MySQL atd. Další informace najdete v podporovaných úložištích dat.

Poznámka:

Prostředí JRE (Java Runtime Environment) je závislost místního prostředí IR. Ujistěte se, že máte na stejném hostiteli nainstalovaný JRE.

Síťové prostředí místního prostředí IR

Pokud chcete bezpečně integrovat data v prostředí privátní sítě, které nemá přímý přehled z prostředí veřejného cloudu, můžete nainstalovat místní prostředí IR do místního prostředí za bránou firewall nebo do virtuální privátní sítě. Místní prostředí Integration Runtime navazuje jenom odchozí připojení HTTP do internetu.

Výpočetní prostředky a škálování místního prostředí IR

Nainstalujte místní prostředí IR na místní počítač nebo virtuální počítač v privátní síti. V současné době se místní prostředí IR podporuje jenom v operačním systému Windows.
Za účelem vysoké dostupnosti a škálovatelnosti můžete škálovat na více instancí prostředí IR v místním prostředí tak, že logickou instanci přidružíte k víc místním počítačům v režimu aktivní-aktivní. Další informace najdete v článku o tom, jak vytvořit a nakonfigurovat místní prostředí IR , kde najdete podrobnosti.

Prostředí Azure-SSIS Integration Runtime

Pokud chcete navýšit a přesunout stávající úlohy služby SSIS, můžete vytvořit prostředí Azure SSIS IR pro nativní spouštění balíčků služby SSIS.

Síťové prostředí Azure-SSIS IR

Prostředí Azure-SSIS IR je možné zřídit buď ve veřejné síti, nebo v privátní síti. Místní přístup k datům je podporovaný připojením Azure-SSIS IR k virtuální síti, která je připojená k místní síti.

Výpočetní prostředky a škálování prostředí Azure-SSIS IR

Prostředí Azure-SSIS IR je plně spravovaný cluster virtuálních počítačů Azure vyhrazených ke spouštění balíčků SSIS. Pro katalog projektů a balíčků služby SSIS (SSISDB) můžete použít vlastní službu Azure SQL Database nebo spravovanou instanci SQL. Můžete vertikálně navýšit výkon výpočetního prostředí tím, že určíte velikost uzlu a pak určíte počet uzlů v clusteru. Náklady na provoz prostředí Azure-SSIS Integration Runtime můžete spravovat tak, že ho zastavíte a spustíte podle požadavků.

Další informace najdete v tématu Vytvoření a konfigurace prostředí Azure-SSIS IR. Po vytvoření můžete nasazovat a spravovat stávající balíčky SSIS beze změny pomocí známých nástrojů, jako jsou SQL Server Data Tools (SSDT) a SQL Server Management Studio (SSMS), stejně jako v místním prostředí SSIS.

Další informace o modulu runtime Azure-SSIS najdete v následujících článcích:

  • Kurz: Nasazení balíčků SSIS do Azure Tento článek obsahuje podrobné pokyny k vytvoření prostředí Azure-SSIS IR a použití služby Azure SQL Database k hostování katalogu SSIS.
  • Postup: Vytvoření prostředí Azure-SSIS Integration Runtime Tento článek se zaměřuje na kurz a obsahuje pokyny k používání služby SQL Managed Instance a připojení prostředí IR k virtuální síti.
  • Monitorování Azure-SSIS IR. Tento článek ukazuje, jak načíst informace o prostředí Azure-SSIS IR a popisy stavů ve vrácených informacích.
  • Správa Azure-SSIS IR. Tento článek ukazuje, jak zastavit, spustit nebo odebrat Azure-SSIS IR. Ukazuje také postup škálování Azure-SSIS IR na více instancí přidáním více uzlů.
  • Připojení Azure-SSIS IR k virtuální síti. Tento článek obsahuje koncepční informace o připojení Azure-SSIS IR k virtuální síti Azure. Obsahuje také postup použití webu Azure Portal ke konfiguraci virtuální sítě a připojení prostředí Azure-SSIS IR k ní.

Umístění modulu runtime integrace

Vztah mezi umístěním továrny a umístěním prostředí IR

Když vytvoříte instanci služby Data Factory nebo pracovního prostoru Synapse, musíte zadat její umístění. Metadata instance se tady ukládají a odsud se spustí aktivace kanálu. Metadata jsou uložena pouze ve vybrané oblasti a nebudou uložena v jiných oblastech.

Kanál mezitím může přistupovat k úložištím dat a výpočetním službám v jiných oblastech Azure a přesouvat data mezi úložišti dat nebo zpracovávat data pomocí výpočetních služeb. Toto chování probíhá prostřednictvím globálně dostupného prostředí IR, aby se zajistilo dodržování předpisů pro data, efektivita a nižší náklady na celkový výstup sítě.

Umístění prostředí IR definuje umístění back-endového výpočetního prostředí a místo, kde se provádí přesun dat, odesílání aktivit a spouštění balíčků SSIS. Umístění prostředí IR se může lišit od umístění služby Data Factory, do které patří.

Umístění prostředí Azure IR

Můžete nastavit oblast umístění prostředí Azure IR, v takovém případě se spuštění nebo odeslání aktivity stane ve vybrané oblasti.

Ve výchozím nastavení se automaticky překládá prostředí Azure IR ve veřejné síti. S touto možností:

  • V případě aktivity kopírování se snažíme automaticky zjistit umístění úložiště dat jímky a pak použít prostředí IR ve stejné oblasti, pokud je k dispozici, nebo nejbližší ve stejné zeměpisné oblasti, jinak; Pokud oblast úložiště dat jímky není zjistitelná, použije se místo toho prostředí IR v oblasti instance.

    Například v oblasti USA – východ se vytvořil pracovní prostor Data Factory nebo Synapse.

    • Pokud se při kopírování dat do objektu blob Azure v oblasti USA – západ zjistí, že objekt blob je v oblasti USA – západ, aktivita kopírování se provede v prostředí IR v oblasti USA – západ; Pokud detekce oblastí selže, aktivita kopírování se spustí v prostředí IR v oblasti USA – východ.
    • Při kopírování dat do Salesforce, pro které oblast není zjistitelná, se aktivita kopírování spustí v prostředí IR v oblasti USA – východ.

    Tip

    Pokud máte přísné požadavky na dodržování předpisů pro data a potřebujete zajistit, aby data neopustála určitou zeměpisnou oblast, můžete explicitně vytvořit prostředí Azure IR v určité oblasti a odkazovat propojenou službu na toto prostředí IR pomocí vlastnosti Připojení Via. Pokud například chcete zkopírovat data z objektu blob ve Velké Británii – jih do pracovního prostoru Azure Synapse ve Velké Británii – jih a chcete zajistit, aby data neopustná z Velké Británie opustila, vytvořte prostředí Azure IR v oblasti Velká Británie – jih a propojte propojené služby s tímto prostředím IR.

  • Pro vyhledávání, getMetadata nebo provádění aktivit odstranění (aktivity kanálu), odesílání aktivit transformace (externí aktivity) a operace vytváření (testovací připojení, procházení seznamu složek a seznam tabulek a data verze Preview) je prostředí IR ve stejné oblasti jako pracovní prostor Služby pro vytváření dat nebo Synapse.

  • Pro Tok dat se používá prostředí IR v oblasti pracovního prostoru Data Factory nebo Synapse.

    Tip

    Osvědčeným postupem je zajistit, aby toky dat běžely ve stejné oblasti jako odpovídající úložiště dat, pokud je to možné. Můžete toho dosáhnout buď pomocí automatického překladu prostředí Azure IR (pokud je umístění úložiště dat stejné jako umístění data factory nebo pracovního prostoru Synapse), nebo vytvořením nové instance Azure IR ve stejné oblasti jako úložiště dat a následným spuštěním toků dat.

Pokud povolíte spravovanou virtuální síť s automatickým překladem pro prostředí Azure IR, použije se prostředí IR v oblasti pracovního prostoru Data Factory nebo Synapse.

Můžete monitorovat, které umístění prostředí IR se projeví během provádění aktivit v zobrazení monitorování aktivit kanálu v sadě Data Factory Studio nebo Synapse Studio nebo v datové části monitorování aktivit.

Umístění místního prostředí IR

Místní prostředí IR je logicky zaregistrované v pracovním prostoru Data Factory nebo Synapse a výpočetní prostředky, které se používají k podpoře jeho funkcí, poskytujete vy. Proto pro prostředí IR v místním prostředí neexistuje žádná explicitní vlastnost umístění.

Pokud se prostředí IR v místním prostředí používá k provádění přesunu dat, extrahuje data ze zdroje a zapisuje je do cíle.

Umístění prostředí Azure-SSIS IR

Poznámka:

V kanálech Synapse se v současné době nepodporují prostředí Azure-SSIS Integration Runtime.

Pro vysoký výkon pracovních postupů extrakce, transformace a načítání (ETL) je velmi důležitý výběr správného umístění prostředí Azure-SSIS IR.

  • Umístění prostředí Azure-SSIS IR nemusí být stejné jako umístění služby Data Factory, ale mělo by to být stejné jako umístění vaší vlastní služby Azure SQL Database nebo sql Managed Instance, ve které se nachází databáze SSISDB. Díky tomu může prostředí Azure-SSIS Integration Runtime snadno přistupovat ke službě SSISDB bez nadměrného provozu mezi různými umístěními.
  • Pokud nemáte existující službu SQL Database nebo spravovanou instanci SQL, ale máte místní zdroje a cíle dat, měli byste vytvořit novou službu Azure SQL Database nebo spravovanou instanci SQL ve stejném umístění virtuální sítě připojené k místní síti. Tímto způsobem můžete vytvořit prostředí Azure-SSIS IR pomocí nové služby Azure SQL Database nebo spravované instance SQL a připojit se k této virtuální síti. Všechno bude ve stejném umístění, minimalizuje přesun dat a související náklady a současně maximalizuje výkon.
  • Pokud umístění existující služby Azure SQL Database nebo spravované instance SQL není stejné jako umístění virtuální sítě připojené k vaší místní síti, nejprve vytvořte prostředí Azure-SSIS IR pomocí existující služby Azure SQL Database nebo spravované instance SQL a připojte se k jiné virtuální síti ve stejném umístění. Pak nakonfigurujte virtuální síť pro připojení k virtuální síti mezi různými umístěními.

Následující diagram znázorňuje nastavení umístění pro službu Data Factory a její prostředí Integration Runtime:

Shows Data Factory integration runtime locations.

Určení modulu runtime integrace, který se má použít

Pokud aktivita přidruží více typů prostředí Integration Runtime, přeloží se na jeden z nich. Místní prostředí Integration Runtime má přednost před prostředím Azure Integration Runtime v instancích pracovního prostoru Azure Data Factory nebo Synapse pomocí spravované virtuální sítě. A ten má přednost před globálním prostředím Azure Integration Runtime.

Například jedna aktivita kopírování se používá ke kopírování dat ze zdroje do jímky. Globální prostředí Azure Integration Runtime je přidružené k propojené službě ke zdroji a prostředí Azure Integration Runtime ve spravované virtuální síti Azure Data Factory přidružené k propojené službě pro jímku. Výsledkem je, že zdrojové i jímky propojené služby používají prostředí Azure Integration Runtime ve spravované virtuální síti azure Data Factory. Pokud ale místní prostředí Integration Runtime přidruží propojenou službu ke zdroji, pak propojená služba zdroje i jímky používají místní prostředí Integration Runtime.

Aktivita kopírování

Aktivita Copy vyžaduje, aby služby propojené se zdrojem i jímkou definovaly směr toku dat. Pomocí následující logiky se dá určit, která instance prostředí Integration Runtime se ke kopírování používá:

  • Kopírování mezi dvěma cloudovými zdroji dat: pokud zdrojové i jímky propojené služby používají Prostředí Azure IR, použije se místní prostředí Azure IR, pokud bylo zadáno, nebo se automaticky určí umístění prostředí Azure IR, pokud byla zvolena možnost automatického překladu ir (výchozí), jak je popsáno v části Umístění prostředí Integration Runtime.
  • Kopírování mezi cloudovým zdrojem dat a zdrojem dat v privátní síti: pokud zdrojová nebo jímka propojená služba odkazuje na místní prostředí IR, aktivita kopírování se spustí v místním prostředí IR.
  • Kopírování mezi dvěma zdroji dat v privátní síti: Zdrojová i jímka propojená služba musí odkazovat na stejnou instanci prostředí Integration Runtime a že k provedení aktivity kopírování se používá prostředí IR.

Aktivity Lookup a GetMetadata

Aktivity Lookup a GetMetadata se provádí v prostředí Integration Runtime přidruženém k propojené službě úložiště dat.

Aktivita externí transformace

Každá aktivita externí transformace, která využívá externí výpočetní modul, má cílovou propojenou výpočetní službu, která odkazuje na prostředí Integration Runtime. Tato instance PROSTŘEDÍ IR určuje umístění, ze kterého se odesílá externí ručně zakódovaná aktivita transformace.

aktivita Tok dat

Tok dat aktivity se spouštějí v přidruženém prostředí Azure Integration Runtime. Výpočetní prostředky Sparku využívané Tok dat určují vlastnosti toku dat ve vašem prostředí Azure IR a služba je plně spravuje.

Integration Runtime v CI/CD

Prostředí Integration Runtime se často nemění a jsou podobné ve všech fázích ci/CD. Data Factory vyžaduje, abyste měli stejný název a typ prostředí Integration Runtime ve všech fázích CI/CD. Pokud chcete sdílet prostředí Integration Runtime napříč všemi fázemi, zvažte použití vyhrazené továrny pouze k tomu, aby obsahovala sdílené prostředí Integration Runtime. Tuto sdílenou továrnu pak můžete použít ve všech vašich prostředích jako propojený typ prostředí Integration Runtime.

Podívejte se na následující články: