Prostředí Integration Runtime v Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Integration Runtime (IR) je výpočetní infrastruktura, kterou používají kanály Azure Data Factory a Azure Synapse k poskytování následujících možností integrace dat v různých síťových prostředích:

  • Tok dat: Spusťte Tok dat ve spravovaném výpočetním prostředí Azure.
  • Přesun dat: Kopírování dat mezi úložišti dat ve veřejných nebo privátních sítích (pro místní i virtuální privátní sítě). Služba poskytuje podporu integrovaných konektorů, převodu formátu, mapování sloupců a výkonného a škálovatelného přenosu dat.
  • Odesílání aktivit: Odesílání a monitorování transformačních aktivit spuštěných v různých výpočetních službách, jako jsou Azure Databricks, Azure HDInsight, ML Studio (Classic), Azure SQL Database, SQL Server a další.
  • Spouštění balíčků služby SSIS: nativní spouštění balíčků služby SQL Server Integration Services (SSIS) ve spravovaném výpočetním prostředí Azure.

V kanálech Data Factory a Synapse aktivita definuje akci, která se má provést. Propojená služba určuje cílové úložiště dat nebo výpočetní službu. Prostředí Integration Runtime poskytuje most mezi aktivitami a propojenými službami. Odkazuje na ni propojená služba nebo aktivita a poskytuje výpočetní prostředí, ve kterém se aktivita buď spouští přímo, nebo odesílá. To umožňuje provádět aktivitu v oblasti, která je co nejblíže cílovému úložišti dat nebo výpočetní službě, aby se maximalizoval výkon a zároveň flexibilita při plnění požadavků na zabezpečení a dodržování předpisů.

Prostředí Integration Runtime je možné vytvářet v uživatelském rozhraní Azure Data Factory a Azure Synapse přímo prostřednictvím centra správy a také ze všech aktivit, datových sad nebo toků dat, které na ně odkazují.

Typy prostředí Integration Runtime

Data Factory nabízí tři typy Integration Runtime (IR) a měli byste zvolit typ, který nejlépe vyhovuje vašim možnostem integrace dat a požadavkům na síťové prostředí. Existují tři typy ir:

  • Azure
  • V místním prostředí
  • Azure-SSIS

Poznámka

Kanály Synapse v současné době podporují pouze Azure nebo místní prostředí Integration Runtime.

Následující tabulka obsahuje informace o podpoře funkcí a sítí pro každý typ prostředí Integration Runtime:

Typ prostředí IR Podpora veřejné sítě Podpora Private Link
Azure Data Flow
Přesuny dat
Odesílání aktivit
Data Flow
Přesuny dat
Odesílání aktivit
V místním prostředí Přesuny dat
Odesílání aktivit
Přesuny dat
Odesílání aktivit
Azure-SSIS Spouštění balíčků služby SSIS Spouštění balíčků služby SSIS

Poznámka

Ovládací prvky odchozích přenosů se liší podle služby azure IR. V Synapse mají pracovní prostory možnost omezit odchozí provoz ze spravované virtuální sítě při využití prostředí Azure IR. Ve službě Data Factory jsou při použití prostředí Azure IR otevřené všechny porty pro odchozí komunikaci . Azure-SSIS IR je možné integrovat do virtuální sítě, aby poskytovaly ovládací prvky odchozí komunikace.

Prostředí Azure Integration Runtime

Prostředí Azure Integration Runtime může:

  • Spouštění toků dat v Azure
  • Spouštění aktivit kopírování mezi cloudovými úložišti dat
  • Ve veřejné síti odešlete následující aktivity transformace: Poznámkový blok Databricks, aktivita Jar nebo Python, aktivita HIVe služby HDInsight, aktivita Pig služby HDInsight, aktivita MapReduce služby HDInsight, aktivita Spark služby HDInsight, streamovaná aktivita SLUŽBY HDInsight, aktivita spuštění dávky ml Studia (classic), aktivity aktualizace prostředků nástroje ML Studio (classic), aktivita uložené procedury Data Lake Analytics Aktivita U-SQL, vlastní aktivita .NET, webová aktivita, aktivita vyhledávání a aktivita Získání metadat.

Síťové prostředí Azure IR

Azure Integration Runtime podporuje připojení k úložišti dat a výpočetním službám s využitím veřejně přístupných koncových bodů. Azure Integration Runtime podporuje při povolování spravovaných Virtual Network připojení k úložišti dat pomocí služby Private Link v prostředí privátní sítě. V Synapse mají pracovní prostory možnosti omezení odchozího provozu z virtuální sítě spravované prostředím IR. Ve službě Data Factory jsou všechny porty otevřené pro odchozí komunikaci. Azure-SSIS IR je možné integrovat s vaší virtuální sítí a zajistit tak řízení odchozí komunikace.

Výpočetní prostředky a škálování prostředí Azure IR

Prostředí Azure Integration Runtime poskytuje v rámci Azure plně spravované výpočetní prostředí bez serveru. Nemusíte si dělat starosti se zřizováním infrastruktury, instalací softwaru, opravami nebo škálováním kapacity. Kromě toho platíte jenom po dobu, kdy prostředí opravdu používáte.

Prostředí Azure Integration Runtime poskytuje nativní výpočetní prostředí pro zabezpečené, spolehlivé a vysoce výkonné přesuny dat mezi cloudovými úložišti dat. Můžete nastavit, kolik jednotek integrace dat se má použít pro aktivitu kopírování, a velikost výpočetních prostředků Azure IR se elasticky vertikálně navyšuje, aniž byste museli explicitně upravovat velikost Integration Runtime Azure.

Odesílání aktivit je odlehčená operace pro směrování aktivity do cílové výpočetní služby, takže pro tento scénář není potřeba vertikálně navýšit kapacitu výpočetních prostředků.

Informace o vytvoření a konfiguraci prostředí Azure IR najdete v tématu Vytvoření a konfigurace Azure Integration Runtime.

Poznámka

Prostředí Azure Integration Runtime má vlastnosti související s modulem Tok dat runtime, který definuje základní výpočetní infrastrukturu, která se použije ke spouštění toků dat.

Prostředí Integration Runtime v místním prostředí

Prostředí IR v místním prostředí nabízí tyto funkce:

  • Spouštění aktivity kopírování mezi úložišti dat v cloudu a úložištěm dat v privátní síti.
  • Odesílání následujících aktivit transformace s výpočetními prostředky v místním prostředí nebo v Azure Virtual Network: aktivita HIVe služby HDInsight (BYOC – Přineste si vlastní cluster), aktivita Pig služby HDInsight (BYOC), aktivita MapReduce služby HDInsight (BYOC), aktivita SPARK služby HDInsight (BYOC), aktivita streamování HDInsight (BYOC), aktivita spuštění dávky v ML Studiu (classic), ML Studio (classic) aktivity prostředků aktualizace, aktivita uložená procedura Data Lake Analytics aktivitu U-SQL, vlastní aktivitu (běží na Azure Batch), aktivitu vyhledávání a aktivitu Získání metadat.

Poznámka

Použijte místní prostředí Integration Runtime k podpoře úložišť dat, která vyžadují vlastní ovladač, jako jsou SAP Hana, MySQL atd. Další informace najdete v tématu o podporovaných úložištích dat.

Poznámka

Prostředí Java Runtime Environment (JRE) je závislost místního prostředí IR. Ujistěte se, že máte prostředí JRE nainstalované na stejném hostiteli.

Síťové prostředí místního prostředí IR

Pokud chcete zabezpečeně integrovat data v prostředí privátní sítě, které nemá přímý přístup z prostředí veřejného cloudu, můžete nainstalovat místní prostředí IR v místním prostředí za bránu firewall nebo uvnitř virtuální privátní sítě. Místní prostředí Integration Runtime navazuje jenom odchozí připojení HTTP do internetu.

Výpočetní prostředky a škálování místního prostředí IR

Nainstalujte místní prostředí IR na místní počítač nebo virtuální počítač v privátní síti. V současné době se místní prostředí IR podporuje jenom v operačním systému Windows.
Za účelem vysoké dostupnosti a škálovatelnosti můžete horizontálně navýšit kapacitu prostředí IR v místním prostředí tak, že logickou instanci přidružíte k víc místním počítačům v režimu aktivní-aktivní. Další informace najdete v článku o vytvoření a konfiguraci místního prostředí IR .

Prostředí Azure-SSIS Integration Runtime

Pokud chcete navýšit a přesunout stávající úlohy služby SSIS, můžete vytvořit prostředí Azure SSIS IR pro nativní spouštění balíčků služby SSIS.

Síťové prostředí Azure-SSIS IR

Azure-SSIS IR je možné zřídit buď ve veřejné síti, nebo v privátní síti. Místní přístup k datům se podporuje připojením Azure-SSIS IR k virtuální síti, která je připojená k místní síti.

Výpočetní prostředky a škálování prostředí Azure-SSIS IR

Azure-SSIS IR je plně spravovaný cluster virtuálních počítačů Azure vyhrazených pro spouštění balíčků SSIS. Můžete použít vlastní Azure SQL Database nebo SQL Managed Instance pro katalog projektů/balíčků SSIS (SSISDB). Můžete vertikálně navýšit výkon výpočetního prostředí tím, že určíte velikost uzlu a pak určíte počet uzlů v clusteru. Náklady na provoz služby Azure-SSIS Integration Runtime můžete spravovat tak, že ho zastavíte a spustíte podle svých požadavků.

Další informace najdete v tématu Vytvoření a konfigurace Azure-SSIS IR. Po vytvoření můžete nasadit a spravovat stávající balíčky SSIS beze změn pomocí známých nástrojů, jako jsou nástroje SQL Server Data Tools (SSDT) a SQL Server Management Studio (SSMS), stejně jako v místním prostředí SSIS.

Další informace o modulu runtime Azure-SSIS najdete v následujících článcích:

  • Kurz: Nasazení balíčků SSIS do Azure Tento článek obsahuje podrobné pokyny k vytvoření Azure-SSIS IR a používá databázi Azure SQL k hostování katalogu služby SSIS.
  • Postup: Vytvoření prostředí Azure-SSIS Integration Runtime Tento článek rozšiřuje kurz a obsahuje pokyny k používání SQL Managed Instance a připojení prostředí IR k virtuální síti.
  • Monitorování Azure-SSIS IR. Tento článek popisuje, jak načíst informace o Azure-SSIS IR, a obsahuje popisy stavů ve vrácených informacích.
  • Správa Azure-SSIS IR. Tento článek ukazuje, jak zastavit, spustit nebo odebrat Azure-SSIS IR. Ukazuje také postup horizontálního navýšení kapacity Azure-SSIS IR přidáním více uzlů.
  • Připojení Azure-SSIS IR k virtuální síti. Tento článek obsahuje koncepční informace o připojení Azure-SSIS IR k virtuální síti Azure. Obsahuje také postup použití Azure Portal ke konfiguraci virtuální sítě a připojení Azure-SSIS IR k ní.

Umístění prostředí Integration Runtime

Vztah mezi umístěním továrny a umístěním prostředí IR

Když vytváříte instanci služby Data Factory nebo pracovního prostoru Synapse, musíte zadat její umístění. Metadata pro instanci jsou uložena zde a aktivace kanálu je inicializována odtud. Metadata se ukládají pouze ve vybrané oblasti a nebudou uložena v jiných oblastech.

Kanál mezitím může přistupovat k úložištím dat a výpočetním službám v jiných oblastech Azure a přesouvat data mezi úložišti dat nebo zpracovávat data pomocí výpočetních služeb. Toto chování probíhá prostřednictvím globálně dostupného prostředí IR, aby se zajistilo dodržování předpisů pro data, efektivita a nižší náklady na celkový výstup sítě.

Umístění prostředí IR definuje umístění svých back-endových výpočetních prostředků a místo, kde se provádí přesun dat, odesílání aktivit a spouštění balíčků SSIS. Umístění prostředí IR se může lišit od umístění datové továrny, do které patří.

Umístění prostředí Azure IR

Můžete nastavit oblast umístění prostředí Azure IR. V takovém případě dojde ke spuštění nebo odeslání aktivity ve vybrané oblasti.

Ve výchozím nastavení se automaticky přeloží prostředí Azure IR ve veřejné síti. S touto možností:

  • V případě aktivity kopírování je vynaloženo maximální úsilí, aby se automaticky zjistilo umístění úložiště dat jímky, a pak použijte ir ve stejné oblasti, pokud je k dispozici, nebo nejbližší ve stejné zeměpisné oblasti, jinak; Pokud oblast úložiště dat jímky není zjistitelná, použije se místo toho prostředí IR v oblasti instance.

    Například se v oblasti USA – východ vytvořil pracovní prostor Data Factory nebo Synapse.

    • Pokud se při kopírování dat do objektu blob Azure v oblasti USA – západ zjistí, že se objekt blob nachází v oblasti USA – západ, aktivita kopírování se spustí v prostředí IR v oblasti USA – západ. Pokud detekce oblasti selže, aktivita kopírování se spustí v prostředí IR v oblasti USA – východ.
    • Při kopírování dat do Salesforce, u kterého oblast není zjistitelná, se aktivita kopírování spustí v prostředí IR v oblasti USA – východ.

    Tip

    Pokud máte přísné požadavky na dodržování předpisů pro data a potřebujete zajistit, aby data neopustěla určitou zeměpisnou oblast, můžete explicitně vytvořit prostředí Azure IR v určité oblasti a odkazovat propojenou službu na toto prostředí IR pomocí vlastnosti ConnectVia. Pokud například chcete zkopírovat data z objektu blob v oblasti Velká Británie – jih do pracovního prostoru Azure Synapse v oblasti Velká Británie – jih a chcete zajistit, aby data neopuscela Spojené království, vytvořte prostředí Azure IR v oblasti Velká Británie – jih a propojte obě propojené služby s tímto prostředím IR.

  • Pro spuštění aktivity Lookup, GetMetadata nebo Odstranění (aktivity kanálu), odesílání aktivit transformace (externí aktivity) a operace vytváření (testování připojení, procházení seznamu složek a seznamu tabulek a náhled dat) se používá prostředí IR ve stejné oblasti jako Data Factory nebo Pracovní prostor Synapse.

  • Pro Tok dat se používá prostředí IR v oblasti Data Factory nebo pracovního prostoru Synapse.

    Tip

    Osvědčeným postupem je zajistit, aby toky dat běžely ve stejné oblasti jako odpovídající úložiště dat, pokud je to možné. Můžete toho dosáhnout buď automatickým překladem pro prostředí Azure IR (pokud je umístění úložiště dat stejné jako umístění data factory nebo pracovního prostoru Synapse), nebo vytvořením nové instance Prostředí Azure IR ve stejné oblasti jako úložiště dat a následným spuštěním toků dat v ní.

Pokud povolíte spravované Virtual Network s automatickým překladem pro prostředí Azure IR, použije se prostředí IR v oblasti Data Factory nebo pracovního prostoru Synapse.

Umístění prostředí IR se projeví během provádění aktivity v zobrazení monitorování aktivit kanálu v nástroji Data Factory Studio nebo Synapse Studio nebo v datové části monitorování aktivit.

Umístění místního prostředí IR

Místní prostředí IR je logicky zaregistrované ve službě Data Factory nebo pracovním prostoru Synapse a výpočetní prostředky používané k podpoře jeho funkcí poskytujete vy. Proto pro prostředí IR v místním prostředí neexistuje žádná explicitní vlastnost umístění.

Pokud se prostředí IR v místním prostředí používá k provádění přesunu dat, extrahuje data ze zdroje a zapisuje je do cíle.

Umístění prostředí Azure-SSIS IR

Poznámka

V kanálech Synapse se v současné době nepodporují prostředí Azure-SSIS Integration Runtime.

Pro vysoký výkon pracovních postupů extrakce, transformace a načítání (ETL) je velmi důležitý výběr správného umístění prostředí Azure-SSIS IR.

  • Umístění Azure-SSIS IR nemusí být stejné jako umístění vaší služby Data Factory, ale mělo by být stejné jako umístění vaší vlastní databáze Azure SQL nebo SQL Managed Instance, kde se nachází databáze SSISDB. Díky tomu bude mít váš Integration Runtime Azure-SSIS snadný přístup k databázi SSISDB, aniž by způsobovat nadměrný provoz mezi různými umístěními.
  • Pokud nemáte existující SQL Database nebo SQL Managed Instance, ale máte místní zdroje nebo cíle dat, měli byste vytvořit novou databázi Azure SQL nebo SQL Managed Instance ve stejném umístění virtuální sítě připojené k místní síti. Tímto způsobem můžete vytvořit Azure-SSIS IR pomocí nové databáze Azure SQL nebo SQL Managed Instance a připojit se k této virtuální síti. Všechno bude ve stejném umístění, což minimalizuje přesun dat a související náklady a současně maximalizuje výkon.
  • Pokud umístění vaší stávající databáze Azure SQL nebo SQL Managed Instance není stejné jako umístění virtuální sítě připojené k místní síti, vytvořte nejprve Azure-SSIS IR pomocí existující databáze Azure SQL nebo SQL Managed Instance a připojte se k další virtuální síti ve stejném umístění. Pak nakonfigurujte připojení virtuální sítě k virtuální síti mezi různými umístěními.

Následující diagram znázorňuje nastavení umístění pro Data Factory a její prostředí Integration Runtime:

Zobrazuje umístění prostředí Data Factory Integration Runtime.

Určení toho, které prostředí IR používat

Pokud aktivita přidruží více než jeden typ prostředí Integration Runtime, přeloží se na jeden z nich. Místní prostředí Integration Runtime má přednost před prostředím Azure Integration Runtime v instancích Azure Data Factory nebo Synapse Workspace využívajících spravovanou virtuální síť. A ta druhá má přednost před globálním prostředím Azure Integration Runtime.

Například jedna aktivita kopírování se používá ke kopírování dat ze zdroje do jímky. Globální prostředí Azure Integration Runtime je přidružené k propojené službě ke zdroji a prostředí Azure Integration Runtime ve Azure Data Factory spravované virtuální síti se přidruží k propojené službě pro jímku. Výsledkem je, že zdrojové i jímky propojené služby používají prostředí Azure Integration Runtime ve spravované virtuální síti Azure Data Factory. Pokud ale místní prostředí Integration Runtime přidruží propojenou službu ke zdroji, pak zdrojová i jímka propojené služby používají místní prostředí Integration Runtime.

Aktivita kopírování

Aktivita Copy vyžaduje, aby zdrojové i jímky propojené služby definovaly směr toku dat. Pomocí následující logiky se dá určit, která instance prostředí Integration Runtime se ke kopírování používá:

  • Kopírování mezi dvěma cloudovými zdroji dat: Pokud zdrojové i jímky propojené služby používají prostředí Azure IR, použije se místní prostředí Azure IR, pokud bylo zadané, nebo se automaticky určí umístění prostředí Azure IR, pokud byla zvolena možnost automatického překladu prostředí IR (výchozí), jak je popsáno v části Umístění prostředí Integration Runtime .
  • Kopírování mezi cloudovým zdrojem dat a zdrojem dat v privátní síti: Pokud zdrojová nebo jímka propojená služba odkazuje na místní prostředí IR, aktivita kopírování se spustí v místním prostředí IR.
  • Kopírování mezi dvěma zdroji dat v privátní síti: zdrojová i propojená služba jímky musí odkazovat na stejnou instanci prostředí Integration Runtime a toto prostředí IR se používá ke spuštění aktivity kopírování.

Aktivity Lookup a GetMetadata

Aktivity Lookup a GetMetadata se provádí v prostředí Integration Runtime přidruženém k propojené službě úložiště dat.

Aktivita externí transformace

Každá aktivita externí transformace, která využívá externí výpočetní modul, má cílovou propojenou výpočetní službu, která odkazuje na prostředí Integration Runtime. Tato instance prostředí IR určuje umístění, ze kterého se tato externí ručně kódovaná transformační aktivita odesílá.

Tok dat aktivita

Tok dat aktivity se spouštějí v přidruženém prostředí Azure Integration Runtime. Výpočetní prostředky Sparku využívané toky dat jsou určeny vlastnostmi toku dat ve vašem prostředí Azure IR a služba je plně spravuje.

Integration Runtime v CI/CD

Moduly runtime integrace se nemění často a jsou podobné ve všech fázích ci/CD. Data Factory vyžaduje, abyste měli stejný název a typ prostředí Integration Runtime ve všech fázích CI/CD. Pokud chcete prostředí Integration Runtime sdílet ve všech fázích, zvažte použití vyhrazené továrny, která bude obsahovat sdílená prostředí Integration Runtime. Tuto sdílenou továrnu pak můžete použít ve všech prostředích jako propojený typ prostředí Integration Runtime.

Další kroky

Viz následující články: