Adatok migrálása helyszíni Hadoop-fürtből az Azure Storage-ba az Azure Data Factory használatával

Cikk
05/15/2024

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Az Azure Data Factory egy hatékony, robusztus és költséghatékony mechanizmust biztosít a helyszíni HDFS-ről az Azure Blob Storage-ba vagy az Azure Data Lake Storage Gen2-be történő nagy léptékű adatmigrálásra.

A Data Factory két alapvető módszert kínál az adatok helyszíni HDFS-ből Azure-ba való migrálásához. A módszert a forgatókönyve alapján választhatja ki.

Data Factory DistCp mód (ajánlott): A Data Factoryben a DistCp (elosztott másolat) használatával másolhat fájlokat az Azure Blob Storage-ba (beleértve a szakaszos másolatot is) vagy az Azure Data Lake Store Gen2-be. A Data Factory és a DistCp használatával kihasználhatja egy meglévő hatékony fürt előnyeit a legjobb másolási átviteli sebesség elérése érdekében. Emellett a Rugalmas ütemezés és a Data Factory egységes monitorozási élményének előnyeit is élvezheti. A Data Factory konfigurációjától függően a másolási tevékenység automatikusan létrehoz egy DistCp-parancsot, elküldi az adatokat a Hadoop-fürtnek, majd figyeli a másolás állapotát. A Data Factory DistCp módot javasoljuk az adatok helyszíni Hadoop-fürtből az Azure-ba való migrálásához.
Data Factory natív integrációs futtatókörnyezeti mód: A DistCp nem minden forgatókönyvben használható. Azure Virtual Networks-környezetben például a DistCp eszköz nem támogatja az Azure ExpressRoute privát társviszony-létesítését egy Azure Storage virtuális hálózati végponttal. Emellett bizonyos esetekben nem szeretné a meglévő Hadoop-fürtöt motorként használni az adatok áttelepítéséhez, hogy ne terhelje meg a fürtöt, ami befolyásolhatja a meglévő ETL-feladatok teljesítményét. Ehelyett használhatja a Data Factory integrációs modul natív képességét a helyszíni HDFS-ből az Azure-ba másoló motorként.

Ez a cikk a következő információkat tartalmazza mindkét megközelítésről:

Teljesítmény
Másolási rugalmasság
Network security
Magas szintű megoldásarchitektúra
Ajánlott megvalósítási eljárások

Teljesítmény

Data Factory DistCp módban az átviteli sebesség ugyanaz, mint ha a DistCp eszközt egymástól függetlenül használja. A Data Factory DistCp mód maximalizálja a meglévő Hadoop-fürt kapacitását. Használhatja a DistCp-t a nagy fürtközi vagy a fürtön belüli másoláshoz.

A DistCp a MapReduce-et használja a disztribúció, a hibakezelés és a helyreállítás, valamint a jelentéskészítés végrehajtásához. Kiterjeszti a fájlok és könyvtárak listáját a feladatleképezés bemenetére. Minden tevékenység átmásolja a forráslistában megadott fájlpartíciót. A DistCp-vel integrált Data Factory használatával olyan folyamatokat hozhat létre, amelyek teljes mértékben kihasználják a hálózati sávszélességet, a tárolási IOPS-t és a sávszélességet, így maximalizálhatja az adatáthelyezési átviteli sebességet a környezetében.

A Data Factory natív integrációs futtatókörnyezeti módja lehetővé teszi a párhuzamosságot is különböző szinteken. A párhuzamosság segítségével teljes mértékben kihasználhatja a hálózati sávszélességet, a tárolási IOPS-t és a sávszélességet az adatátviteli sebesség maximalizálása érdekében:

Egy másolási tevékenység kihasználhatja a méretezhető számítási erőforrások előnyeit. Saját üzemeltetésű integrációs futtatókörnyezettel manuálisan skálázhatja fel a gépet, vagy több gépre (akár négy csomópontra) is felskálázhatja a skálázást. Egy másolási tevékenység minden csomóponton particionolja a fájlkészletet.
Egy másolási tevékenység több szál használatával olvas és ír az adattárba.
A Data Factory vezérlési folyamata több másolási tevékenységet is elindíthat párhuzamosan. Használhat például egy For Each ciklust.

További információkért tekintse meg a másolási tevékenység teljesítményére vonatkozó útmutatót.

Rugalmasság

Data Factory DistCp módban különböző DistCp parancssori paramétereket használhat (például -ifigyelmen kívül hagyhatja a hibákat, vagy -updateadatokat írhat, ha a forrásfájl és a célfájl mérete eltér) a különböző rugalmassági szintekhez.

A Data Factory natív integrációs futtatókörnyezeti módban, egyetlen másolási tevékenység futtatásakor a Data Factory beépített újrapróbálkozási mechanizmussal rendelkezik. Képes kezelni az adattárakban vagy a mögöttes hálózaton előforduló átmeneti hibák bizonyos szintjét.

Amikor bináris másolást végez a helyszíni HDFS-ről a Blob Storage-ba, valamint a helyszíni HDFS-ről a Data Lake Store Gen2-be, a Data Factory automatikusan nagy mértékben végez ellenőrzőpont-ellenőrzést. Ha egy másolási tevékenység sikertelen vagy túllépi az időkorlátot, egy későbbi újrapróbálkozáskor (győződjön meg arról, hogy az újrapróbálkozások száma > 1), a másolás az első időpont helyett az utolsó hibapontról folytatódik.

Network security

A Data Factory alapértelmezés szerint https protokollon keresztül titkosított kapcsolattal továbbítja az adatokat a helyszíni HDFS-ből a Blob Storage-ba vagy az Azure Data Lake Storage Gen2-be. A HTTPS adattitkosítást biztosít az átvitel során, és megakadályozza a lehallgatást és a közbeékelt támadásokat.

Másik lehetőségként, ha nem szeretné, hogy az adatok a nyilvános interneten keresztül legyenek átadva, a nagyobb biztonság érdekében az ExpressRoute-on keresztül privát társviszony-létesítési hivatkozáson keresztül is átviheti az adatokat.

Megoldásarchitektúra

Ez a kép az adatok nyilvános interneten való áttelepítését ábrázolja:

Diagram that shows the solution architecture for migrating data over a public network

Ebben az architektúrában az adatok biztonságos átvitele HTTPS használatával történik a nyilvános interneten keresztül.
Javasoljuk, hogy a Data Factory DistCp üzemmódot nyilvános hálózati környezetben használja. A hatékony meglévő fürt előnyeit kihasználva a lehető legjobb másolási teljesítményt érheti el. Emellett a Data Factory rugalmas ütemezési és egységes monitorozási élményét is élvezheti.
Ehhez az architektúrához telepítenie kell a Data Factory saját üzemeltetésű integrációs modulját egy vállalati tűzfal mögötti Windows-gépen, hogy elküldje a DistCp parancsot a Hadoop-fürtnek, és figyelje a másolás állapotát. Mivel a gép nem az a motor, amely adatokat fog áthelyezni (csak vezérlési célokra), a gép kapacitása nem befolyásolja az adatáthelyezés átviteli sebességét.
A DistCp parancs meglévő paraméterei támogatottak.

Ez a kép az adatok privát hivatkozáson keresztüli migrálását ábrázolja:

Diagram that shows the solution architecture for migrating data over a private network

Ebben az architektúrában az adatok migrálása privát társviszony-létesítési hivatkozáson keresztül történik az Azure ExpressRoute-on keresztül. Az adatok soha nem haladnak át a nyilvános interneten.
A DistCp eszköz nem támogatja az ExpressRoute privát társviszony-létesítését egy Azure Storage virtuális hálózati végponttal. Javasoljuk, hogy az integrációs modulon keresztül használja a Data Factory natív képességeit az adatok migrálásához.
Ehhez az architektúrához telepítenie kell a Data Factory saját üzemeltetésű integrációs modulját egy Windows rendszerű virtuális gépre az Azure-beli virtuális hálózaton. Manuálisan skálázhatja fel a virtuális gépet, vagy több virtuális gépre is felskálázhatja a hálózati és tárolási IOPS-t vagy sávszélességet.
Az egyes Azure-beli virtuális gépekhez (a Data Factory saját üzemeltetésű integrációs moduljának telepítésével) ajánlott konfiguráció 32 vCPU-val és 128 GB memóriával Standard_D32s_v3. Monitorozhatja a virtuális gép processzor- és memóriahasználatát az adatmigrálás során, hogy lássa, fel kell-e skáláznia a virtuális gépet a jobb teljesítmény érdekében, vagy le kell-e skáláznia a virtuális gépet a költségek csökkentése érdekében.
A vertikális felskálázáshoz akár négy virtuálisgép-csomópontot is társíthat egyetlen saját üzemeltetésű integrációs modullal. A saját üzemeltetésű integrációs modulon futó egyetlen másolási feladat automatikusan particionálja a fájlkészletet, és az összes virtuálisgép-csomópontot használja a fájlok párhuzamos másolásához. A magas rendelkezésre állás érdekében javasoljuk, hogy két virtuálisgép-csomóponttal kezdje, hogy elkerülje az adatmigrálás során egy meghibásodási ponttal rendelkező forgatókönyvet.
Ha ezt az architektúrát használja, a kezdeti pillanatképadatok migrálása és a változásadatok migrálása elérhetővé válik.

Ajánlott megvalósítási eljárások

Javasoljuk, hogy kövesse ezeket az ajánlott eljárásokat az adatmigrálás megvalósításakor.

Hitelesítés és hitelesítő adatok kezelése

A HDFS-hitelesítéshez HasználhatJa a Windowst (Kerberos) vagy a Névtelent.
Az Azure Blob Storage-hoz való csatlakozáshoz több hitelesítési típus is támogatott. Erősen javasoljuk, hogy felügyelt identitásokat használjunk az Azure-erőforrásokhoz. A Microsoft Entra ID-ban automatikusan felügyelt Data Factory-identitásra épülő felügyelt identitások lehetővé teszik a folyamatok konfigurálását anélkül, hogy hitelesítő adatokat ad meg a társított szolgáltatás definíciójában. A Blob Storage szolgáltatásnévvel, közös hozzáférésű jogosultságkóddal vagy tárfiók-kulccsal is hitelesíthető.
Több hitelesítési típus is támogatott a Data Lake Storage Gen2-hez való csatlakozáshoz. Erősen javasoljuk, hogy felügyelt identitásokat használjon az Azure-erőforrásokhoz, de használhat szolgáltatásnevet vagy tárfiókkulcsot is.
Ha nem felügyelt identitásokat használ az Azure-erőforrásokhoz, javasoljuk , hogy tárolja a hitelesítő adatokat az Azure Key Vaultban , hogy egyszerűbb legyen a kulcsok központi kezelése és elforgatása a Data Factory társított szolgáltatásainak módosítása nélkül. Ez a CI/CD esetében is ajánlott eljárás.

Kezdeti pillanatképadatok migrálása

Data Factory DistCp módban létrehozhat egy másolási tevékenységet a DistCp parancs elküldéséhez, és különböző paraméterekkel szabályozhatja a kezdeti adatmigrálási viselkedést.

A Data Factory natív integrációs futtatókörnyezeti módban az adatpartíciót javasoljuk, különösen akkor, ha 10 TB-nál több adatot migrál. Az adatok particionálásához használja a HDFS mappaneveit. Ezután minden Data Factory másolási feladat egyszerre egy mappapartíciót másolhat. A jobb átviteli sebesség érdekében egyszerre több Data Factory másolási feladatot is futtathat.

Ha bármelyik másolási feladat hálózati vagy adattárbeli átmeneti problémák miatt meghiúsul, újrafuttathatja a sikertelen másolási feladatot az adott partíció HDFS-ből való újratöltéséhez. Más partíciókat betöltő másolási feladatokra nincs hatással.

Delta-adatok migrálása

Data Factory DistCp módban használhatja a DistCp parancssori paramétert -update, amely akkor ír adatokat, ha a forrásfájl és a célfájl mérete eltérő, a delta adatmigráláshoz.

A Data Factory natív integrációs módjában az új vagy módosított fájlok HDFS-ből való azonosításának leghasznosabb módja egy időparticionált elnevezési konvenció használata. Ha a HDFS-ben lévő adatok időszeletelési adatokkal vannak particionálva a fájl vagy mappa nevében (például /yyyy/mm/dd/file.csv), a folyamat könnyen azonosíthatja, hogy mely fájlokat és mappákat másolja növekményesen.

Ha a HDFS-ben lévő adatok nem időparticionáltak, a Data Factory a LastModifiedDate értékével azonosíthat új vagy módosított fájlokat. A Data Factory a HDFS összes fájlját megvizsgálja, és csak azokat az új és frissített fájlokat másolja, amelyek legutóbb módosított időbélyege nagyobb, mint egy beállított érték.

Ha nagy számú fájl található a HDFS-ben, a kezdeti fájlvizsgálat hosszú időt vehet igénybe, függetlenül attól, hogy hány fájl felel meg a szűrőfeltételnek. Ebben a forgatókönyvben azt javasoljuk, hogy először particionálja az adatokat ugyanazzal a partícióval, amelyet a kezdeti pillanatkép-migráláshoz használt. Ezután a fájlvizsgálat párhuzamosan is megtörténhet.

Ár becslése

Fontolja meg az alábbi folyamatot az adatok HDFS-ből Azure Blob Storage-ba való migrálásához:

Diagram that shows the pricing pipeline

Tegyük fel, hogy a következő információk:

A teljes adatmennyiség 1 PB.
Az adatokat a Data Factory natív integrációs futtatókörnyezeti módjával migrálhatja.
Az 1 PB 1000 partícióra van osztva, és minden másolat egy partíciót helyez át.
Minden másolási tevékenység egy saját üzemeltetésű integrációs modullal van konfigurálva, amely négy géphez van társítva, és amely 500 MBps átviteli sebességet ér el.
A ForEach egyidejűsége 4 , az összesített átviteli sebesség pedig 2 GBps.
A migrálás összesen 146 órát vesz igénybe.

Íme a becsült ár a feltételezéseink alapján:

Table that shows pricing calculations

Megjegyzés:

Ez egy hipotetikus díjszabási példa. A tényleges díjszabás a környezet tényleges átviteli sebességétől függ. A (saját üzemeltetésű integrációs futtatókörnyezettel rendelkező) Azure Windows rendszerű virtuális gépek árát nem tartalmazza.

További referenciák

Fájlok másolása több tárolóból az Azure Data Factory használatával

Megosztás a következőn keresztül:

Adatok migrálása helyszíni Hadoop-fürtből az Azure Storage-ba az Azure Data Factory használatával

Teljesítmény

Rugalmasság

Network security

Megoldásarchitektúra

Ajánlott megvalósítási eljárások

Hitelesítés és hitelesítő adatok kezelése

Kezdeti pillanatképadatok migrálása

Delta-adatok migrálása

Ár becslése

További referenciák

Visszajelzés

Visszajelzés

További források

Megosztás a következőn keresztül:

Adatok migrálása helyszíni Hadoop-fürtből az Azure Storage-ba az Azure Data Factory használatával

Teljesítmény

Rugalmasság

Network security

Megoldásarchitektúra

Ajánlott megvalósítási eljárások

Hitelesítés és hitelesítő adatok kezelése

Kezdeti pillanatképadatok migrálása

Delta-adatok migrálása

Ár becslése

További referenciák

Kapcsolódó tartalom

Visszajelzés

Visszajelzés

További források