Integrációs modul az Azure Data Factoryban

A KÖVETKEZŐKRE VONATKOZIK: Azure Data Factory Azure Synapse Analytics

A Integration Runtime (IR) a Azure Data Factory és Azure Synapse folyamatok által használt számítási infrastruktúra, amely a következő adatintegrációs képességeket biztosítja a különböző hálózati környezetekben:

  • Adatfolyam: Adatfolyam végrehajtása felügyelt Azure számítási környezetben.
  • Adatáthelyezési: Adatok másolása nyilvános vagy magánhálózatok adattárai között (helyszíni vagy virtuális magánhálózatok esetén is). A szolgáltatás támogatja a beépített összekötőket, a formátumátalakítást, az oszlopleképezést, valamint a teljesítményalapú és méretezhető adatátvitelt.
  • Tevékenységküldés: Különböző számítási szolgáltatásokon, például az Azure Databricksen, az Azure HDInsighton, az ML Studióban (klasszikus), Azure SQL Database-en, SQL Server stb. futó átalakítási tevékenységek küldése és monitorozása.
  • SSIS-csomag végrehajtása: Natívan végrehajthat SQL Server Integration Services- (SSIS-) csomagokat egy Azure-beli felügyelt számítási környezetben.

A Data Factory- és Synapse-folyamatokban egy tevékenység határozza meg a végrehajtandó műveletet. A társított szolgáltatások a céladattárat vagy a számítási szolgáltatást határozzák meg. Az integrációs modul hidat biztosít a tevékenységek és a társított szolgáltatások között. A társított szolgáltatás vagy tevékenység hivatkozik rá, és azt a számítási környezetet biztosítja, ahol a tevékenység közvetlenül fut vagy el van küldve. Ez lehetővé teszi a tevékenység végrehajtását a céladattárhoz vagy számítási szolgáltatáshoz legközelebbi régióban a teljesítmény maximalizálása érdekében, ugyanakkor rugalmasságot biztosít a biztonsági és megfelelőségi követelményeknek való megfeleléshez.

Az integrációs futtatókörnyezetek közvetlenül a felügyeleti központon keresztül hozhatók létre a Azure Data Factory és a Azure Synapse felhasználói felületén, valamint bármely olyan tevékenységből, adatkészletből vagy adatfolyamból, amely hivatkozik rájuk.

Integrációsmodul-típusok

A Data Factory háromféle Integration Runtime (IR) kínál, és válassza ki azt a típust, amely a legjobban megfelel az adatintegrációs képességeknek és a hálózati környezeti követelményeknek. Az integrációs modul három típusa:

  • Azure
  • Saját üzemeltetésű
  • Azure SSIS

Megjegyzés

A Synapse-folyamatok jelenleg csak az Azure- vagy saját üzemeltetésű integrációs modulokat támogatják.

Az alábbi táblázat ismerteti az integrációs modulok egyes típusainak képességeit és hálózati támogatását:

Integrációs modul típusa Nyilvános hálózati támogatás Private Link támogatás
Azure Data FlowData movementActivity dispatch Data FlowData movementActivity dispatch
Saját üzemeltetésű Adatáthelyezési Tevékenységküldés Adatáthelyezési Tevékenységküldés
Azure SSIS SSIS-csomag végrehajtása SSIS-csomag végrehajtása

Megjegyzés

A kimenő vezérlők szolgáltatásonként eltérőek az Azure IR esetében. A Synapse-ben a munkaterületek korlátozhatják a felügyelt virtuális hálózat kimenő forgalmát az Azure IR használatakor. A Data Factoryben minden port kimenő kommunikációra nyílik meg az Azure IR használatakor. Azure-SSIS IR integrálható a virtuális hálózattal a kimenő kommunikációs vezérlők biztosításához.

Azure-beli integrációs modul

Az Azure-integrációs futtatókörnyezetek a következőt tehetik:

  • Adatfolyamok futtatása az Azure-ban
  • Másolási tevékenységek futtatása a felhőbeli adattárak között
  • Küldje el a következő transzformációs tevékenységeket egy nyilvános hálózaton: Databricks Notebook/ Jar/ Python-tevékenység, HDInsight Hive-tevékenység, HDInsight Pig-tevékenység, HDInsight MapReduce-tevékenység, HDInsight Spark-tevékenység, HDInsight Streaming-tevékenység, ML Studio (klasszikus) Batch-végrehajtási tevékenység, ML Studio (klasszikus) Erőforrás-frissítési tevékenységek, Tárolt eljárás tevékenység, Data Lake Analytics U-SQL-tevékenység, .NET egyéni tevékenység, webes tevékenység, keresési tevékenység és Metaadatok lekérése tevékenység.

Azure-beli integrációs modul hálózati környezete

Az Azure Integration Runtime támogatja a nyilvánosan elérhető végpontokkal rendelkező adattárakhoz és számítási szolgáltatásokhoz való csatlakozást. A felügyelt Virtual Network engedélyezésével az Azure Integration Runtime támogatja az adattárakhoz való csatlakozást privát hálózati környezetben, privát kapcsolati szolgáltatással. A Synapse-ban a munkaterületek korlátozhatják az integrációs modul által felügyelt virtuális hálózat kimenő forgalmát. A Data Factoryban minden port meg van nyitva a kimenő kommunikációhoz. A Azure-SSIS IR integrálhatók a virtuális hálózattal a kimenő kommunikációs vezérlők biztosításához.

Azure-beli integrációs modul számítási erőforrásai és skálázása

Az Azure-beli integrációs modul teljesen felügyelt, kiszolgáló nélküli számítást biztosít az Azure-ban. Nem kell aggódnia az infrastruktúra kiépítése, a szoftvertelepítés, a javítás vagy a kapacitás skálázása miatt. Ráadásul csak a tényleges használat időtartamára fizet.

Az Azure-beli integrációs modul biztosítja a natív számítást az adatok felhőalapú adattárak közötti biztonságos, megbízható és nagy teljesítményű módon való mozgatásához. Beállíthatja, hogy hány adatintegrációs egységet használjon a másolási tevékenységhez, és az Azure IR számítási mérete rugalmasan felskálázható anélkül, hogy explicit módon módosítania kellene az Azure Integration Runtime méretét.

A tevékenységküldés egy egyszerű művelet, amely a tevékenységet a cél számítási szolgáltatáshoz irányítja, így ehhez a forgatókönyvhöz nem kell vertikálisan felskálázni a számítási méretet.

Az Azure integrációs modul létrehozásával és konfigurálásával kapcsolatos információkért lásd: Az Azure Integration Runtime létrehozása és konfigurálása.

Megjegyzés

Az Azure Integration Runtime Adatfolyam futtatókörnyezethez kapcsolódó tulajdonságokkal rendelkezik, amelyek meghatározzák az adatfolyamok futtatásához használandó mögöttes számítási infrastruktúrát.

Saját üzemeltetésű integrációs modul

Egy saját üzemeltetésű IR a következőkre képes:

  • Másolási tevékenység futtatása felhőalapú adattárak és egy magánhálózaton lévő adattár között.
  • A következő átalakító tevékenységek elküldése helyszíni vagy Azure-Virtual Network számítási erőforrásokon: HDInsight Hive-tevékenység (BYOC-Bring Your Own Cluster), HDInsight Pig-tevékenység (BYOC), HDInsight MapReduce-tevékenység (BYOC), HDInsight Spark-tevékenység (BYOC), HDInsight Streaming-tevékenység (BYOC), ML Studio (klasszikus) Batch Execution tevékenység, ML Studio (klasszikus) Erőforrás-tevékenységek frissítése, Tárolt eljárás tevékenység, Data Lake Analytics U-SQL-tevékenység, egyéni tevékenység (Azure Batch fut), keresési tevékenység és Metaadatok lekérése tevékenység.

Megjegyzés

Saját üzemeltetésű integrációs modul használata olyan adattárak támogatásához, amelyekhez saját illesztőprogram szükséges, például SAP Hana, MySQL stb. További információ: Támogatott adattárak.

Megjegyzés

A Java Futtatókörnyezet (JRE) a helyi integrációs modul függősége. Győződjön meg arról, hogy a JRE telepítve van ugyanazon a gazdagépen.

Saját üzemeltetésű integrációs modul hálózati környezete

Ha olyan magánhálózati környezetben szeretné biztonságosan végrehajtani az adatintegrációt, amely nem rendelkezik közvetlen látóvonallal a nyilvános felhőkörnyezetből, telepíthet egy helyi integrációs modult a helyszíni környezetben egy tűzfal mögött, vagy egy virtuális magánhálózaton belül. A helyi integrációs modul csak kimenő HTTP-alapú kapcsolatokat hoz létre az internettel.

Saját üzemeltetésű integrációs modul erőforrásai és skálázása

Telepítsen egy helyi integrációs modult egy helyszíni gépre vagy egy magánhálózaton belüli virtuális gépre. A helyi integrációs modul jelenleg csak Windows operációs rendszeren támogatott.
A magas rendelkezésre állás és a méretezhetőség érdekében horizontálisan felskálázhatja saját üzemeltetésű integrációs modulját, ha több helyszíni géppel aktív-aktív módban társít hozzá egy logikai példányt. További információt a helyi integrációs modul létrehozásáról és konfigurálásáról szóló cikkben talál.

Azure SSIS integrációs modul

A meglévő SSIS számítási feladat átemeléséhez létrehozhat egy Azure-SSIS integrációs modult az SSIS-csomagok natív létrehozásához.

Azure-SSIS integrációs modul hálózati környezete

A Azure-SSIS IR nyilvános hálózaton vagy magánhálózaton építhetők ki. A helyszíni adathozzáférést támogatja, ha Azure-SSIS IR csatlakozik egy, a helyszíni hálózathoz csatlakoztatott virtuális hálózathoz.

Azure-SSIS integrációs modul számítási erőforrásai és skálázása

A Azure-SSIS IR az SSIS-csomagok futtatására dedikált Azure-beli virtuális gépek teljes körűen felügyelt fürtje. Saját Azure SQL adatbázist vagy SQL Managed Instance hozhat az SSIS-projektek/-csomagok katalógusához (SSISDB). A számítási teljesítmény vertikális felskálázásához adjon meg egy csomópontméretet, és skálázza fel horizontálisan a fürt csomópontszámának megadásával. Az Azure-SSIS-Integration Runtime futtatásának költségeit a követelményeknek megfelelően leállíthatja és elindíthatja.

További információ: A Azure-SSIS IR létrehozása és konfigurálása. A létrehozást követően a meglévő SSIS-csomagokat úgy helyezheti üzembe és kezelheti, hogy nem változnak a megszokott eszközök, például a SQL Server Data Tools (SSDT) és a SQL Server Management Studio (SSMS), akárcsak a helyszíni SSIS használata.

Az Azure-SSIS futtatókörnyezetről az alábbi cikkekben talál további információt:

Az integrációs modul helye

Kapcsolat a gyári hely és az integrációs modul helye között

Amikor létrehoz egy Data Factory-példányt vagy egy Synapse-munkaterületet, meg kell adnia a helyét. A példány metaadatait itt tárolja a rendszer, és innen indítja el a folyamat aktiválását. A metaadatok csak a kiválasztott régióban vannak tárolva, és más régiókban nem lesznek tárolva.

Eközben a folyamatok hozzáférhetnek más Azure-régiók adattáraihoz és számítási szolgáltatásaihoz, hogy adatokat helyezzenek át az adattárak között, vagy számítási szolgáltatásokkal dolgozzák fel az adatokat. Ez a viselkedés az adatok megfelelősége, a hatékonyság és a hálózati kimeneti forgalmának alacsonyabb költségei érdekében a globálisan elérhető integrációs modulon keresztül valósul meg.

Az integrációs modul helye határozza meg a háttérbeli számítás helyét, valamint azt, hogy hol történik az adatáthelyezés, a tevékenységküldés és az SSIS-csomag végrehajtása. Az integrációs modul helye eltérhet annak a Data Factorynak a helyétől, amelyhez tartozik.

Az Azure-beli integrációs modul helye

Beállíthatja egy Azure IR helyrégióját, amely esetben a tevékenység végrehajtása vagy elküldése a kiválasztott régióban történik.

Az alapértelmezett beállítás az Azure IR automatikus feloldása a nyilvános hálózaton. Ezzel a beállítással:

  • Másolási tevékenység esetén a rendszer minden tőle telhetőt megtesz annak érdekében, hogy automatikusan észlelje a fogadó adattár helyét, majd használja az integrációs modult ugyanabban a régióban( ha van ilyen), vagy a legközelebbit ugyanabban a földrajzi helyen, ellenkező esetben; Ha a fogadó adattár régiója nem észlelhető, a rendszer ehelyett a példány régiójában lévő integrációs modult használja.

    Például egy Data Factory- vagy Synapse-munkaterületet hoztak létre az USA keleti régiójában,

    • Amikor adatokat másol az USA nyugati régiójában található Azure Blobba, ha a blob az USA nyugati régiójában található, a másolási tevékenység az USA nyugati régiójában található integrációs modulon lesz végrehajtva; ha a régióészlelés sikertelen, a másolási tevékenység az USA keleti régiójában lévő integrációs modulon lesz végrehajtva.
    • Amikor adatokat másol a Salesforce-ba, amelynél a régió nem észlelhető, a másolási tevékenység az USA keleti régiójában lévő integrációs modulon lesz végrehajtva.

    Tipp

    Ha szigorú adatmegfelelőségi követelményekkel rendelkezik, és meg kell győződnie arról, hogy az adatok nem hagynak el egy adott földrajzi helyet, explicit módon létrehozhat egy Azure IR-t egy adott régióban, és a ConnectVia tulajdonság használatával erre az integrációs modulra adhatja a társított szolgáltatást. Ha például adatokat szeretne másolni az Egyesült Királyság déli régiójában található blobból egy Azure Synapse munkaterületre az Egyesült Királyság déli részén, és biztosítani szeretné, hogy az adatok ne hagyják el az Egyesült Királyságot, hozzon létre egy Azure IR-t az Egyesült Királyság déli régiójában, és csatolja mindkét társított szolgáltatást ehhez az integrációs modulhoz.

  • A Keresési/GetMetadata/Törlési tevékenységek végrehajtása (Folyamattevékenységek), az átalakítási tevékenységek kézbesítése (külső tevékenységek) és a szerzői műveletek (tesztkapcsolat, mappalista és táblalista tallózása és előzetes verziójú adatok) esetében a Data Factoryval vagy a Synapse-munkaterülettel azonos régióban található integrációs modult használja a rendszer.

  • A Adatfolyam a Data Factory vagy a Synapse-munkaterület területén található integrációs modult használja.

    Tipp

    Az ajánlott eljárás annak biztosítása, hogy az adatfolyamok a megfelelő adattárakkal azonos régióban fussanak, ha lehetséges. Ezt az Azure IR automatikus feloldásával érheti el (ha az adattár helye megegyezik a Data Factory vagy a Synapse-munkaterület helyével), vagy létrehozhat egy új Azure IR-példányt az adattárakkal azonos régióban, majd végrehajthatja rajta az adatfolyamokat.

Ha engedélyezi a felügyelt Virtual Network automatikus feloldással az Azure IR-hez, a Data Factory vagy a Synapse-munkaterület területén található integrációs modul lesz használatban.

Megfigyelheti, hogy mely integrációs modul helye lép érvénybe a tevékenység végrehajtása során a Data Factory Studióban vagy a Synapse Studio folyamattevékenység-figyelési nézetben vagy a tevékenységfigyelési hasznos adatokban.

A saját üzemeltetésű integrációs modul helye

A saját üzemeltetésű integrációs modul logikailag regisztrálva van a Data Factoryban vagy a Synapse-munkaterületen, és a funkciók támogatásához használt számítást Ön biztosítja. Ezért a saját üzemeltetésű integrációs modulok esetében nincs explicit hely tulajdonság.

Ha adatmozgás végrehajtásához használja, a saját üzemeltetésű integrációs modul kinyeri az adatokat a forrásból, és a célra írja.

Az Azure-SSIS integrációs modul helye

Megjegyzés

Az Azure-SSIS integrációs futtatókörnyezetek jelenleg nem támogatottak a Synapse-folyamatokban.

Az Azure-SSIS integrációs modul számára a megfelelő helyet kiválasztása az ETL folyamatokban létfontosságú a magas teljesítmény eléréséhez.

  • A Azure-SSIS IR helyének nem kell megegyeznie a Data Factory helyével, de meg kell egyeznie a saját Azure SQL adatbázisának vagy SQL Managed Instance helyével, ahol az SSISDB található. Ily módon az Azure-SSIS Integration Runtime egyszerűen hozzáférhet az SSISDB-hez anélkül, hogy túlzott forgalmat váltanak ki a különböző helyek között.
  • Ha nincs meglévő SQL Database vagy SQL Managed Instance, de helyszíni adatforrásokkal/célhelyekkel rendelkezik, hozzon létre egy új Azure SQL adatbázist vagy SQL Managed Instance a helyszíni hálózathoz csatlakoztatott virtuális hálózat ugyanazon helyén. Így létrehozhatja a Azure-SSIS IR az új Azure SQL adatbázissal vagy SQL Managed Instance, és csatlakozhat a virtuális hálózathoz. Minden ugyanabban a helyen lesz, minimalizálva az adatáthelyezést és a kapcsolódó költségeket, miközben maximalizálja a teljesítményt.
  • Ha a meglévő Azure SQL-adatbázis vagy SQL Managed Instance helye nem egyezik meg a helyszíni hálózathoz csatlakoztatott virtuális hálózat helyével, először hozza létre a Azure-SSIS IR egy meglévő Azure SQL adatbázis vagy SQL Managed Instance és csatlakozzon egy másik virtuális hálózathoz ugyanazon a helyen. Ezután konfiguráljon egy virtuális hálózatot a különböző helyek közötti virtuális hálózati kapcsolathoz.

Az alábbi ábra a Data Factory és az integrációs futtatókörnyezetek helybeállításait mutatja be:

A Data Factory integrációs moduljának helyeit jeleníti meg.

A használandó integrációs modul meghatározása

Ha egy tevékenység több típusú integrációs modulhoz is társítható, akkor az egyikre lesz feloldva. A helyi integrációs modul elsőbbséget élvez a felügyelt virtuális hálózatot használó Azure Data Factory- vagy Synapse-munkaterület-példányok Azure-integrációs futtatókörnyezetével szemben. Ez utóbbi elsőbbséget élvez a globális Azure-integrációs modullal szemben.

Egy másolási tevékenység például arra szolgál, hogy adatokat másoljon a forrásból a fogadóba. A globális Azure-integrációs modul a forráshoz társított szolgáltatáshoz van társítva, és egy azure-integrációs modul egy Azure Data Factory felügyelt virtuális hálózatban társítja a társított szolgáltatást a fogadóhoz, majd az eredmény az, hogy a forrás- és fogadó társított szolgáltatások is az Azure-integrációs modult használják a Azure Data Factory felügyelt virtuális hálózaton. Ha azonban egy helyi integrációs modul társítja a forráshoz társított szolgáltatást, akkor a forrás és a fogadó társított szolgáltatás is a saját üzemeltetésű integrációs modult használja.

Másolási tevékenység

A Copy tevékenység a forráshoz és a fogadóhoz társított szolgáltatásoknak is meg kell határozniuk az adatfolyam irányát. A rendszer az alábbi logikával határozza meg, melyik integrációsmodell-példányt használja a másolás végrehajtásához:

  • Másolás két felhőbeli adatforrás között: ha a forráshoz és a fogadóhoz társított szolgáltatások is az Azure IR-t használják, akkor a rendszer a regionális Azure IR-t használja, ha meg lett adva, vagy az Azure IR helyét automatikusan meghatározza, hogy az integrációs modul automatikus feloldása (alapértelmezett) beállítás lett-e kiválasztva az Integrációs modul helyének szakaszában leírtak szerint.
  • Másolás egy felhőbeli adatforrás és egy magánhálózat adatforrása között: ha a forrás vagy fogadó társított szolgáltatás egy saját üzemeltetésű integrációs modulra mutat, a másolási tevékenység a saját üzemeltetésű integrációs modulon lesz végrehajtva.
  • Magánhálózat két adatforrása közötti másolás: a forráshoz és a fogadóhoz társított szolgáltatásnak az integrációs modul ugyanazon példányára kell mutatnia, és ezt az integrációs modult használja a másolási tevékenység végrehajtásához.

Keresési és metaadat-beolvasási tevékenység

A keresési és metaadat-beolvasási tevékenységet a rendszer az adattár társított szolgáltatásához rendelt integrációs modulon hajtja végre.

Külső átalakítási tevékenység

Minden külső számítási motort használó külső átalakítási tevékenység rendelkezik egy cél számításhoz kapcsolódó szolgáltatással, amely egy integrációs modulra mutat. Ez az integrációs modul-példány határozza meg azt a helyet, ahonnan a külső, kézzel kódolt átalakítási tevékenység el lesz küldve.

Adatfolyam tevékenység

Adatfolyam tevékenységek a társított Azure-integrációs modulon lesznek végrehajtva. Az adatfolyamok által használt Spark-számítást az Azure IR adatfolyam-tulajdonságai határozzák meg, és a szolgáltatás teljes mértékben felügyeli.

Integration Runtime CI/CD-ben

Az integrációs futtatókörnyezetek nem változnak gyakran, és hasonlóak a CI/CD minden szakaszában. A Data Factory megköveteli, hogy a CI/CD minden szakaszában ugyanazzal a névvel és típusú integrációs modullal rendelkezzen. Ha az integrációs modulokat minden fázisban meg szeretné osztani, fontolja meg egy dedikált gyár használatát csak a megosztott integrációs futtatókörnyezetek használatához. Ezután ezt a megosztott gyárat az összes környezetben használhatja társított integrációs modultípusként.

Következő lépések

Lásd az alábbi cikkeket: