Integrációs modul az Azure Data Factoryben

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Az integrációs modul (INTEGRÁCIÓ) az Azure Data Factory és az Azure Synapse-folyamatok által használt számítási infrastruktúra, amely a következő adatintegrációs képességeket biztosítja a különböző hálózati környezetekben:

  • Adatfolyam: Adatfolyam végrehajtása felügyelt Azure számítási környezetben.
  • Adatáthelyezés: Adatok másolása nyilvános vagy magánhálózatok adattárai között (helyszíni vagy virtuális magánhálózatok esetén is). A szolgáltatás támogatja a beépített összekötőket, a formátumkonvertálást, az oszlopleképezést, valamint a teljesítményalapú és skálázható adatátvitelt.
  • Tevékenységküldés: Különböző számítási szolgáltatásokon futó átalakítási tevékenységek küldése és monitorozása, mint például az Azure Databricks, az Azure HDInsight, az ML Studio (klasszikus), az Azure SQL Database, az SQL Server stb.
  • SSIS-csomag végrehajtása: Natívan végrehajthat SQL Server Integration Services- (SSIS-) csomagokat egy Azure-beli felügyelt számítási környezetben.

A Data Factory és a Synapse-folyamatokban egy tevékenység határozza meg a végrehajtandó műveletet. A társított szolgáltatások a céladattárat vagy a számítási szolgáltatást határozzák meg. Az integrációs modul hidat biztosít a tevékenységek és a társított szolgáltatások között. A társított szolgáltatás vagy tevékenység hivatkozik rá, és azt a számítási környezetet biztosítja, ahol a tevékenység közvetlenül vagy elküldve fut. Ez lehetővé teszi, hogy a tevékenység a céladattárhoz vagy számítási szolgáltatáshoz legközelebb eső régióban történjen a teljesítmény maximalizálása érdekében, ugyanakkor rugalmasságot biztosít a biztonsági és megfelelőségi követelményeknek való megfeleléshez.

Az integrációs futtatókörnyezetek közvetlenül a felügyeleti központon keresztül hozhatók létre az Azure Data Factoryben és az Azure Synapse felhasználói felületén, valamint bármely olyan tevékenységből, adatkészletből vagy adatfolyamból, amely hivatkozik rájuk.

Integrációsmodul-típusok

A Data Factory háromféle integrációs modult (IR) kínál, és ki kell választania azt a típust, amely a legjobban szolgálja az adatintegrációs képességeket és a hálózati környezeti követelményeket. Az integrációs modul három típusa:

  • Azure
  • Saját üzemeltetésű
  • Azure-SSIS

Megjegyzés:

A Synapse-folyamatok jelenleg csak az Azure-t vagy a saját üzemeltetésű integrációs modulokat támogatják.

Az alábbi táblázat ismerteti az integrációs modulok egyes típusainak képességeit és hálózati támogatását:

Integrációs modul típusa Nyilvános hálózat támogatása Privát kapcsolat támogatása
Azure Adatfolyam
Adatáthelyezés
Tevékenység küldése
Adatfolyam
Adatáthelyezés
Tevékenység küldése
Saját üzemeltetésű Adatáthelyezés
Tevékenység küldése
Adatáthelyezés
Tevékenység küldése
Azure-SSIS SSIS-csomag végrehajtása SSIS-csomag végrehajtása

Megjegyzés:

A kimenő vezérlők szolgáltatásonként eltérőek az Azure IR-hez. A Synapse-ban a munkaterületek az Azure IR használatakor korlátozhatják a felügyelt virtuális hálózat kimenő forgalmát. A Data Factoryben minden port meg van nyitva a kimenő kommunikációhoz az Azure IR használatakor. Az Azure-SSIS IR integrálható a virtuális hálózattal a kimenő kommunikációs vezérlők biztosítása érdekében.

Azure integrációs modul

Az Azure-integrációs futtatókörnyezetek a következő lehetőségeket képesek:

  • Adatfolyam futtatása az Azure-ban
  • Másolási tevékenységek futtatása felhőbeli adattárak között
  • A következő transzformációs tevékenységeket küldi el egy nyilvános hálózaton:
    • .NET egyéni tevékenység
    • Azure-függvénytevékenység
    • Databricks Notebook/ Jar/ Python-tevékenység
    • Data Lake Analytics U-SQL-tevékenység
    • Metaadatok beolvasási tevékenysége
    • HDInsight Hive-tevékenység
    • HDInsight Pig-tevékenység
    • HDInsight MapReduce-tevékenység
    • HDInsight Spark-tevékenység
    • HDInsight Streaming-tevékenység
    • Keresési tevékenység
    • Machine Tanulás Studio (klasszikus) Batch Execution tevékenység
    • Machine Tanulás Studio (klasszikus) frissítési erőforrás-tevékenység
    • Tárolt eljárási tevékenység
    • Érvényesítési tevékenység
    • Webes tevékenység

Azure-beli integrációs modul hálózati környezete

Az Azure Integration Runtime támogatja az adattárakhoz való csatlakozást és a nyilvánosan elérhető végpontokkal rendelkező számítási szolgáltatásokat. A felügyelt virtuális hálózat engedélyezésével az Azure Integration Runtime támogatja az adattárakhoz való csatlakozást privát hálózati környezetben, privát kapcsolati szolgáltatással. A Synapse-ban a munkaterületek korlátozhatják az integrációs modul által felügyelt virtuális hálózat kimenő forgalmát. A Data Factoryben minden port meg van nyitva a kimenő kommunikációhoz. Az Azure-SSIS IR integrálható a virtuális hálózattal a kimenő kommunikációs vezérlők biztosítása érdekében.

Azure-beli integrációs modul számítási erőforrásai és skálázása

Az Azure-beli integrációs modul teljesen felügyelt, kiszolgáló nélküli számítást biztosít az Azure-ban. Nem kell aggódnia az infrastruktúra kiépítése, a szoftvertelepítés, a javítás vagy a kapacitás skálázása miatt. Ráadásul csak a tényleges használat időtartamára fizet.

Az Azure-beli integrációs modul biztosítja a natív számítást az adatok felhőalapú adattárak közötti biztonságos, megbízható és nagy teljesítményű módon való mozgatásához. Beállíthatja, hogy hány adatintegrációs egységet használjon a másolási tevékenységhez, és az Azure IR számítási mérete ennek megfelelően rugalmasan felskálázható anélkül, hogy explicit módon módosítania kellene az Azure Integration Runtime méretét.

A tevékenységküldés egy egyszerű művelet, amely a tevékenységet a cél számítási szolgáltatáshoz irányítja, így ehhez a forgatókönyvhöz nem kell vertikálisan felskálázni a számítási méretet.

Az Azure integrációs modul létrehozásáról és konfigurálásáról további információt az Azure Integration Runtime létrehozása és konfigurálása című témakörben talál.

Megjegyzés:

Az Azure Integration Runtime Adatfolyam futtatókörnyezethez kapcsolódó tulajdonságokkal rendelkezik, amelyek meghatározzák az adatfolyamok futtatásához használandó mögöttes számítási infrastruktúrát.

Self-hosted integration runtime

Egy saját üzemeltetésű IR a következőkre képes:

  • Másolási tevékenység futtatása felhőalapú adattárak és egy magánhálózaton lévő adattár között.
  • A következő transzformációs tevékenységek elküldése a helyszíni vagy azure-beli virtuális hálózat számítási erőforrásaihoz:
    • Azure-függvénytevékenység
    • Egyéni tevékenység (Azure Batchben fut)
    • Data Lake Analytics U-SQL-tevékenység
    • Metaadatok beolvasási tevékenysége
    • HDInsight Hive-tevékenység (BYOC-Bring Your Own Cluster)
    • HDInsight Pig-tevékenység (BYOC)
    • HDInsight MapReduce-tevékenység (BYOC)
    • HDInsight Spark-tevékenység (BYOC)
    • HDInsight Streaming-tevékenység (BYOC)
    • Keresési tevékenység
    • Machine Tanulás Studio (klasszikus) Batch Execution tevékenység
    • Machine Tanulás Studio (klasszikus) frissítési erőforrás-tevékenység
    • Gépi Tanulás folyamattevékenység végrehajtása
    • Tárolt eljárási tevékenység
    • Érvényesítési tevékenység
    • Webes tevékenység

Megjegyzés:

Saját üzemeltetésű integrációs modullal támogathatja a saját illesztőprogramot igénylő adattárakat, például az SAP Hana, a MySQL stb. További információ: támogatott adattárak.

Megjegyzés:

A Java Runtime Environment (JRE) a saját üzemeltetésű integrációs modul függősége. Győződjön meg arról, hogy a JRE telepítve van ugyanazon a gazdagépen.

Saját üzemeltetésű integrációs modul hálózati környezete

Ha olyan magánhálózati környezetben szeretné biztonságosan végrehajtani az adatintegrációt, amely nem rendelkezik közvetlen látóvonallal a nyilvános felhőkörnyezetből, telepítheti a saját üzemeltetésű integrációs modult a helyszíni környezetben tűzfal mögött vagy egy virtuális magánhálózaton belül. The self-hosted integration runtime only makes outbound HTTP-based connections to the internet.

Saját üzemeltetésű integrációs modul erőforrásai és skálázása

Telepítsen egy saját üzemeltetésű integrációs modult egy helyszíni gépre vagy egy magánhálózaton belüli virtuális gépre. A saját üzemeltetésű integrációs modul jelenleg csak Windows operációs rendszeren támogatott.
A magas rendelkezésre állás és a méretezhetőség érdekében horizontálisan felskálázhatja saját üzemeltetésű integrációs modulját, ha több helyszíni géppel aktív-aktív módban társít hozzá egy logikai példányt. További információt a saját üzemeltetésű integrációs modul létrehozásáról és konfigurálásáról szóló cikkben talál.

Azure SSIS Integration Runtime

A meglévő SSIS számítási feladat átemeléséhez létrehozhat egy Azure-SSIS integrációs modult az SSIS-csomagok natív létrehozásához.

Azure-SSIS integrációs modul hálózati környezete

Az Azure-SSIS integrációs modul nyilvános hálózaton vagy magánhálózaton is kiépíthető. A helyszíni adathozzáférést az Azure-SSIS INTEGRÁCIÓs modulnak a helyszíni hálózathoz csatlakoztatott virtuális hálózathoz való csatlakoztatása támogatja.

Azure-SSIS integrációs modul számítási erőforrásai és skálázása

Az Azure-SSIS integrációs modul az SSIS-csomagok futtatására dedikált Azure-beli virtuális gépek teljes körűen felügyelt fürtje. Saját Azure SQL Database-adatbázist vagy felügyelt SQL-példányt is használhat az SSIS-projektek/csomagok katalógusához (SSISDB). A számítási teljesítmény vertikális felskálázásához adjon meg egy csomópontméretet, és skálázza fel horizontálisan a fürt csomópontszámának megadásával. Az Azure-SSIS integrációs modul futtatásának költségeit a követelményeknek megfelelően leállíthatja és elindíthatja.

További információ: Az Azure-SSIS integrációs modul létrehozása és konfigurálása. A létrehozás után a meglévő SSIS-csomagokat úgy helyezheti üzembe és felügyelheti, hogy ne változzon az olyan ismerős eszközök használata, mint az SQL Server Data Tools (SSDT) és az SQL Server Management Studio (SSMS), akárcsak a helyszíni SSIS használata.

Az Azure-SSIS futtatókörnyezetről az alábbi cikkekben talál további információt:

  • Oktatóanyag: SSIS-csomagok üzembe helyezése az Azure-ban. Ez a cikk részletes útmutatást nyújt egy Azure-SSIS integrációs modul létrehozásához, és egy Azure SQL Database használatával üzemelteti az SSIS-katalógust.
  • Útmutató: Azure-SSIS integrációs modul létrehozása. Ez a cikk kiterjeszti az oktatóanyagot, és útmutatást nyújt a felügyelt SQL-példány használatáról és az integrációs modul virtuális hálózathoz való csatlakoztatásáról.
  • Azure-SSIS integrációs modul monitorozása. Ez a cikk bemutatja, hogyan kérdezhet le információkat az Azure-SSIS integrációs modulról, és ismerteti az állapotokat a visszaadott információkban.
  • Azure-SSIS integrációs modul kezelése. Ez a cikk bemutatja, hogyan lehet leállítani, elindítani vagy eltávolítani egy Azure-SSIS integrációs modult. Azt is bemutathatja, hogyan skálázhatja fel horizontálisan az Azure-SSIS integrációs modult úgy, hogy további csomópontokat ad hozzá.
  • Azure-SSIS integrációs modul csatlakoztatása virtuális hálózathoz. Ez a cikk egy Azure-SSIS integrációs modul Azure virtuális hálózathoz való csatlakoztatásával kapcsolatos elméleti információkat tartalmaz. Emellett lépéseket is tartalmaz, hogy az Azure Portal használatával konfiguráljon egy virtuális hálózatot, és csatlakozzon hozzá egy Azure-SSIS integrációs modulhoz.

Az integrációs modul helye

Kapcsolat a gyári hely és az integrációs modul helye között

A Data Factory vagy a Synapse-munkaterület egy példányának létrehozásakor meg kell adnia a helyét. A példány metaadatait itt tárolja a rendszer, és innen indítja el a folyamat aktiválását. A metaadatok csak a kiválasztott régióban vannak tárolva, és más régiókban nem lesznek tárolva.

Eközben a folyamatok hozzáférhetnek más Azure-régiók adattáraihoz és számítási szolgáltatásaihoz, hogy adatokat helyezzenek át az adattárak között, vagy számítási szolgáltatások használatával dolgozzák fel az adatokat. Ez a viselkedés az adatok megfelelősége, a hatékonyság és a hálózati kimeneti forgalmának alacsonyabb költségei érdekében a globálisan elérhető integrációs modulon keresztül valósul meg.

Az integrációs modul helye határozza meg a háttérbeli számítás helyét, valamint azt, hogy hol történik az adatáthelyezés, a tevékenységküldés és az SSIS-csomag végrehajtása. Az integrációs modul helye eltérhet annak a Data Factorynek a helyétől, amelyhez tartozik.

Az Azure-beli integrációs modul helye

Beállíthatja az Azure IR helyrégióját, amely esetben a tevékenység végrehajtása vagy elküldése a kiválasztott régióban történik.

Az alapértelmezett beállítás az Azure IR automatikus feloldása a nyilvános hálózaton. Ezzel a beállítással:

  • Másolási tevékenység esetén a rendszer minden tőle telhetőt megtesz annak érdekében, hogy automatikusan észlelje a fogadó adattár helyét, majd használja az integrációs modult ugyanabban a régióban, ha van ilyen, vagy a legközelebbit ugyanabban a földrajzi helyen, ellenkező esetben; ha a fogadó adattár régiója nem észlelhető, a rendszer ehelyett a példány régiójában lévő integrációs modult használja.

    Például egy Data Factory vagy Synapse-munkaterület jött létre az USA keleti régiójában,

    • Ha az usa nyugati régiójában lévő Azure Blobba másol adatokat, ha a blob az USA nyugati régiójában található, a másolási tevékenység az USA nyugati régiójában található integrációs modulon lesz végrehajtva; ha a régióészlelés sikertelen, a másolási tevékenység az USA keleti régiójában az integrációs modulon lesz végrehajtva.
    • Amikor adatokat másol a Salesforce-ba, amely esetében a régió nem észlelhető, a másolási tevékenység az USA keleti régiójában található integrációs modulon lesz végrehajtva.

    Tipp.

    Ha szigorú adatmegfelelőségi követelményekkel rendelkezik, és meg kell győződnie arról, hogy az adatok nem hagynak el egy adott földrajzi helyet, explicit módon létrehozhat egy Azure IR-t egy adott régióban, és a társított szolgáltatást erre az integrációs modulra irányíthatja a Csatlakozás Via tulajdonság használatával. Ha például az Egyesült Királyság déli régiójában lévő blobból szeretne adatokat átmásolni egy Azure Synapse-munkaterületre az Egyesült Királyság déli régiójában, és meg szeretné győződni arról, hogy az adatok nem hagyják el az Egyesült Királyságot, hozzon létre egy Azure IR-t az Egyesült Királyság déli régiójában, és csatolja mindkét társított szolgáltatást ehhez az integrációs modulhoz.

  • A Keresési/GetMetadata/Delete tevékenység-végrehajtás (Folyamattevékenységek), az átalakítási tevékenységek kézbesítése (külső tevékenységek) és a szerzői műveletek (tesztkapcsolat, mappalista és táblázatlista tallózása és előzetes adatok) esetében a Data Factoryvel vagy a Synapse-munkaterülettel azonos régióban található integrációs modult használja a rendszer.

  • A Adatfolyam esetében a Data Factory vagy a Synapse Workspace régió integrációs modulja használható.

    Tipp.

    Ajánlott eljárás annak biztosítása, hogy az adatfolyamok a megfelelő adattárakkal azonos régióban fussanak, ha lehetséges. Ezt az Azure IR automatikus feloldásával érheti el (ha az adattár helye megegyezik a Data Factory vagy a Synapse-munkaterület helyével), vagy létrehozhat egy új Azure IR-példányt az adattárakkal azonos régióban, majd végrehajthatja rajta az adatfolyamokat.

Ha az Azure IR automatikus feloldásával engedélyezi a felügyelt virtuális hálózatot, a rendszer a Data Factory vagy a Synapse Workspace régióban lévő integrációs modult használja.

Megfigyelheti, hogy mely integrációs modul helye lép érvénybe a tevékenység végrehajtása során a Data Factory Studióban vagy a Synapse Studióban, illetve a tevékenységfigyelési hasznos adatok nézetben.

A saját üzemeltetésű integrációs modul helye

A saját üzemeltetésű integrációs modul logikailag regisztrálva van a Data Factoryben vagy a Synapse-munkaterületen, és a funkciók támogatásához használt számítást Ön biztosítja. Ezért a saját üzemeltetésű integrációs modulok esetében nincs explicit hely tulajdonság.

Ha adatmozgás végrehajtásához használja, a saját üzemeltetésű integrációs modul kinyeri az adatokat a forrásból, és a célra írja.

Az Azure-SSIS integrációs modul helye

Megjegyzés:

Az Azure-SSIS integrációs futtatókörnyezetek jelenleg nem támogatottak a Synapse-folyamatokban.

Az Azure-SSIS integrációs modul számára a megfelelő helyet kiválasztása az ETL folyamatokban létfontosságú a magas teljesítmény eléréséhez.

  • Az Azure-SSIS integrációs modul helyének nem kell megegyeznie a Data Factory helyével, de meg kell egyeznie a saját Azure SQL Database vagy felügyelt SQL-példány helyével, ahol az SSISDB található. Így az Azure-SSIS integrációs modul egyszerűen elérheti az SSISDB-t anélkül, hogy túlzott forgalmat bonyolítanak a különböző helyek között.
  • Ha nem rendelkezik meglévő SQL Database-adatbázissal vagy felügyelt SQL-példánnyal, de helyszíni adatforrásokkal/célhelyekkel rendelkezik, hozzon létre egy új Azure SQL Database-példányt vagy felügyelt SQL-példányt a helyszíni hálózathoz csatlakoztatott virtuális hálózat ugyanazon helyén. Így létrehozhatja az Azure-SSIS integrációs modult az új Azure SQL Database vagy a felügyelt SQL-példány használatával, és csatlakozhat a virtuális hálózathoz. Minden ugyanazon a helyen lesz, minimalizálva az adatáthelyezést és a kapcsolódó költségeket, miközben maximalizálja a teljesítményt.
  • Ha a meglévő Azure SQL Database vagy a felügyelt SQL-példány helye nem azonos a helyszíni hálózathoz csatlakoztatott virtuális hálózat helyével, először hozza létre az Azure-SSIS integrációs modult egy meglévő Azure SQL Database vagy felügyelt SQL-példány használatával, és csatlakozzon egy másik virtuális hálózathoz ugyanazon a helyen. Ezután konfiguráljon egy virtuális hálózatot a különböző helyek közötti virtuális hálózati kapcsolathoz.

Az alábbi ábra a Data Factory és az integrációs futtatókörnyezetek helybeállításait mutatja be:

Shows Data Factory integration runtime locations.

A használandó integrációs modul meghatározása

Ha egy tevékenység több típusú integrációs modulhoz is társítható, az egyiket feloldja. A saját üzemeltetésű integrációs modul elsőbbséget élvez az Azure Data Factory vagy a Synapse Workspace-példányok Azure-integrációs moduljaival szemben, felügyelt virtuális hálózatot használva. Ez utóbbi elsőbbséget élvez a globális Azure-integrációs modullal szemben.

Egy másolási tevékenység például arra szolgál, hogy adatokat másoljon a forrásból a fogadóba. A globális Azure-integrációs futtatókörnyezet a forráshoz társított szolgáltatáshoz van társítva, és egy Azure Data Factory által felügyelt virtuális hálózat azure-integrációs modulja társítva van a fogadó társított szolgáltatásával, majd az eredmény az, hogy a forrás- és fogadó társított szolgáltatások az Azure-integrációs modult használják az Azure Data Factory által felügyelt virtuális hálózaton. Ha azonban egy saját üzemeltetésű integrációs modul társítja a forráshoz társított szolgáltatást, akkor a forrás és a fogadó társított szolgáltatás is a saját üzemeltetésű integrációs modult használja.

Másolási tevékenység

A Copy tevékenység a forráshoz és a fogadóhoz társított szolgáltatásoknak is meg kell határozniuk az adatfolyam irányát. A rendszer az alábbi logikával határozza meg, melyik integrációsmodell-példányt használja a másolás végrehajtásához:

  • Másolás két felhőbeli adatforrás között: ha a forrás- és fogadóalapú társított szolgáltatások az Azure IR-t használják, akkor a rendszer a regionális Azure IR-t használja, ha meg van adva, vagy az Azure IR helyét automatikusan meghatározza, ha az integrációs modul (alapértelmezett) automatikus feloldási beállítását választotta az Integrációs modul helyének szakaszában leírtak szerint.
  • Másolás egy felhőbeli adatforrás és egy magánhálózat adatforrása között: ha a forrás vagy fogadó társított szolgáltatás egy saját üzemeltetésű integrációs modulra mutat, a másolási tevékenység a saját üzemeltetésű integrációs modulon lesz végrehajtva.
  • Magánhálózat két adatforrása közötti másolás: a forrás- és fogadó társított szolgáltatásnak az integrációs modul ugyanazon példányára kell mutatnia, és a másolási tevékenység végrehajtásához az integrációs modult kell használni.

Keresési és metaadat-beolvasási tevékenység

A keresési és metaadat-beolvasási tevékenységet a rendszer az adattár társított szolgáltatásához rendelt integrációs modulon hajtja végre.

Külső átalakítási tevékenység

A külső számítási motort használó minden külső átalakítási tevékenység rendelkezik egy célhoz kötött számítási szolgáltatással, amely egy integrációs modulra mutat. Ez az integrációs modul-példány határozza meg azt a helyet, ahonnan a külső, kézzel kódolt átalakítási tevékenység feladása történik.

Adatfolyam tevékenység

Adatfolyam tevékenységek a társított Azure-integrációs futtatókörnyezetben lesznek végrehajtva. A Adatfolyam által használt Spark-számítást az Azure IR adatfolyam-tulajdonságai határozzák meg, és a szolgáltatás teljes mértékben felügyeli.

Integrációs modul a CI/CD-ben

Az integrációs futtatókörnyezetek nem változnak gyakran, és a CI/CD minden szakaszában hasonlóak. A Data Factory megköveteli, hogy a CI/CD minden szakaszában ugyanazzal a névvel és típusú integrációs modullal rendelkezzen. Ha minden fázisban meg szeretné osztani az integrációs futtatókörnyezeteket, fontolja meg egy dedikált gyár használatát csak a megosztott integrációs futtatókörnyezetek használatához. Ezt a megosztott gyárat ezután az összes környezetben használhatja csatolt integrációs modultípusként.

Tekintse meg az alábbi cikkeket: