Adatok migrálása helyszíni Hadoop-fürtből az Azure Storage-ba az Azure Data Factory használatával
A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Az Azure Data Factory egy hatékony, robusztus és költséghatékony mechanizmust biztosít a helyszíni HDFS-ről az Azure Blob Storage-ba vagy az Azure Data Lake Storage Gen2-be történő nagy léptékű adatmigrálásra.
A Data Factory két alapvető módszert kínál az adatok helyszíni HDFS-ből Azure-ba való migrálásához. A módszert a forgatókönyve alapján választhatja ki.
- Data Factory DistCp mód (ajánlott): A Data Factoryben a DistCp (elosztott másolat) használatával másolhat fájlokat az Azure Blob Storage-ba (beleértve a szakaszos másolatot is) vagy az Azure Data Lake Store Gen2-be. A Data Factory és a DistCp használatával kihasználhatja egy meglévő hatékony fürt előnyeit a legjobb másolási átviteli sebesség elérése érdekében. Emellett a Rugalmas ütemezés és a Data Factory egységes monitorozási élményének előnyeit is élvezheti. A Data Factory konfigurációjától függően a másolási tevékenység automatikusan létrehoz egy DistCp-parancsot, elküldi az adatokat a Hadoop-fürtnek, majd figyeli a másolás állapotát. A Data Factory DistCp módot javasoljuk az adatok helyszíni Hadoop-fürtből az Azure-ba való migrálásához.
- Data Factory natív integrációs futtatókörnyezeti mód: A DistCp nem minden forgatókönyvben használható. Azure Virtual Networks-környezetben például a DistCp eszköz nem támogatja az Azure ExpressRoute privát társviszony-létesítését egy Azure Storage virtuális hálózati végponttal. Emellett bizonyos esetekben nem szeretné a meglévő Hadoop-fürtöt motorként használni az adatok áttelepítéséhez, hogy ne terhelje meg a fürtöt, ami befolyásolhatja a meglévő ETL-feladatok teljesítményét. Ehelyett használhatja a Data Factory integrációs modul natív képességét a helyszíni HDFS-ből az Azure-ba másoló motorként.
Ez a cikk a következő információkat tartalmazza mindkét megközelítésről:
- Teljesítmény
- Másolási rugalmasság
- Network security
- Magas szintű megoldásarchitektúra
- Ajánlott megvalósítási eljárások
Teljesítmény
Data Factory DistCp módban az átviteli sebesség ugyanaz, mint ha a DistCp eszközt egymástól függetlenül használja. A Data Factory DistCp mód maximalizálja a meglévő Hadoop-fürt kapacitását. Használhatja a DistCp-t a nagy fürtközi vagy a fürtön belüli másoláshoz.
A DistCp a MapReduce-et használja a disztribúció, a hibakezelés és a helyreállítás, valamint a jelentéskészítés végrehajtásához. Kiterjeszti a fájlok és könyvtárak listáját a feladatleképezés bemenetére. Minden tevékenység átmásolja a forráslistában megadott fájlpartíciót. A DistCp-vel integrált Data Factory használatával olyan folyamatokat hozhat létre, amelyek teljes mértékben kihasználják a hálózati sávszélességet, a tárolási IOPS-t és a sávszélességet, így maximalizálhatja az adatáthelyezési átviteli sebességet a környezetében.
A Data Factory natív integrációs futtatókörnyezeti módja lehetővé teszi a párhuzamosságot is különböző szinteken. A párhuzamosság segítségével teljes mértékben kihasználhatja a hálózati sávszélességet, a tárolási IOPS-t és a sávszélességet az adatátviteli sebesség maximalizálása érdekében:
- Egy másolási tevékenység kihasználhatja a méretezhető számítási erőforrások előnyeit. Saját üzemeltetésű integrációs futtatókörnyezettel manuálisan skálázhatja fel a gépet, vagy több gépre (akár négy csomópontra) is felskálázhatja a skálázást. Egy másolási tevékenység minden csomóponton particionolja a fájlkészletet.
- Egy másolási tevékenység több szál használatával olvas és ír az adattárba.
- A Data Factory vezérlési folyamata több másolási tevékenységet is elindíthat párhuzamosan. Használhat például egy For Each ciklust.
További információkért tekintse meg a másolási tevékenység teljesítményére vonatkozó útmutatót.
Rugalmasság
Data Factory DistCp módban különböző DistCp parancssori paramétereket használhat (például -i
figyelmen kívül hagyhatja a hibákat, vagy -update
adatokat írhat, ha a forrásfájl és a célfájl mérete eltér) a különböző rugalmassági szintekhez.
A Data Factory natív integrációs futtatókörnyezeti módban, egyetlen másolási tevékenység futtatásakor a Data Factory beépített újrapróbálkozási mechanizmussal rendelkezik. Képes kezelni az adattárakban vagy a mögöttes hálózaton előforduló átmeneti hibák bizonyos szintjét.
Amikor bináris másolást végez a helyszíni HDFS-ről a Blob Storage-ba, valamint a helyszíni HDFS-ről a Data Lake Store Gen2-be, a Data Factory automatikusan nagy mértékben végez ellenőrzőpont-ellenőrzést. Ha egy másolási tevékenység sikertelen vagy túllépi az időkorlátot, egy későbbi újrapróbálkozáskor (győződjön meg arról, hogy az újrapróbálkozások száma > 1), a másolás az első időpont helyett az utolsó hibapontról folytatódik.
Network security
A Data Factory alapértelmezés szerint https protokollon keresztül titkosított kapcsolattal továbbítja az adatokat a helyszíni HDFS-ből a Blob Storage-ba vagy az Azure Data Lake Storage Gen2-be. A HTTPS adattitkosítást biztosít az átvitel során, és megakadályozza a lehallgatást és a közbeékelt támadásokat.
Másik lehetőségként, ha nem szeretné, hogy az adatok a nyilvános interneten keresztül legyenek átadva, a nagyobb biztonság érdekében az ExpressRoute-on keresztül privát társviszony-létesítési hivatkozáson keresztül is átviheti az adatokat.
Megoldásarchitektúra
Ez a kép az adatok nyilvános interneten való áttelepítését ábrázolja:
- Ebben az architektúrában az adatok biztonságos átvitele HTTPS használatával történik a nyilvános interneten keresztül.
- Javasoljuk, hogy a Data Factory DistCp üzemmódot nyilvános hálózati környezetben használja. A hatékony meglévő fürt előnyeit kihasználva a lehető legjobb másolási teljesítményt érheti el. Emellett a Data Factory rugalmas ütemezési és egységes monitorozási élményét is élvezheti.
- Ehhez az architektúrához telepítenie kell a Data Factory saját üzemeltetésű integrációs modulját egy vállalati tűzfal mögötti Windows-gépen, hogy elküldje a DistCp parancsot a Hadoop-fürtnek, és figyelje a másolás állapotát. Mivel a gép nem az a motor, amely adatokat fog áthelyezni (csak vezérlési célokra), a gép kapacitása nem befolyásolja az adatáthelyezés átviteli sebességét.
- A DistCp parancs meglévő paraméterei támogatottak.
Ez a kép az adatok privát hivatkozáson keresztüli migrálását ábrázolja:
- Ebben az architektúrában az adatok migrálása privát társviszony-létesítési hivatkozáson keresztül történik az Azure ExpressRoute-on keresztül. Az adatok soha nem haladnak át a nyilvános interneten.
- A DistCp eszköz nem támogatja az ExpressRoute privát társviszony-létesítését egy Azure Storage virtuális hálózati végponttal. Javasoljuk, hogy az integrációs modulon keresztül használja a Data Factory natív képességeit az adatok migrálásához.
- Ehhez az architektúrához telepítenie kell a Data Factory saját üzemeltetésű integrációs modulját egy Windows rendszerű virtuális gépre az Azure-beli virtuális hálózaton. Manuálisan skálázhatja fel a virtuális gépet, vagy több virtuális gépre is felskálázhatja a hálózati és tárolási IOPS-t vagy sávszélességet.
- Az egyes Azure-beli virtuális gépekhez (a Data Factory saját üzemeltetésű integrációs moduljának telepítésével) ajánlott konfiguráció 32 vCPU-val és 128 GB memóriával Standard_D32s_v3. Monitorozhatja a virtuális gép processzor- és memóriahasználatát az adatmigrálás során, hogy lássa, fel kell-e skáláznia a virtuális gépet a jobb teljesítmény érdekében, vagy le kell-e skáláznia a virtuális gépet a költségek csökkentése érdekében.
- A vertikális felskálázáshoz akár négy virtuálisgép-csomópontot is társíthat egyetlen saját üzemeltetésű integrációs modullal. A saját üzemeltetésű integrációs modulon futó egyetlen másolási feladat automatikusan particionálja a fájlkészletet, és az összes virtuálisgép-csomópontot használja a fájlok párhuzamos másolásához. A magas rendelkezésre állás érdekében javasoljuk, hogy két virtuálisgép-csomóponttal kezdje, hogy elkerülje az adatmigrálás során egy meghibásodási ponttal rendelkező forgatókönyvet.
- Ha ezt az architektúrát használja, a kezdeti pillanatképadatok migrálása és a változásadatok migrálása elérhetővé válik.
Ajánlott megvalósítási eljárások
Javasoljuk, hogy kövesse ezeket az ajánlott eljárásokat az adatmigrálás megvalósításakor.
Hitelesítés és hitelesítő adatok kezelése
- A HDFS-hitelesítéshez HasználhatJa a Windowst (Kerberos) vagy a Névtelent.
- Az Azure Blob Storage-hoz való csatlakozáshoz több hitelesítési típus is támogatott. Erősen javasoljuk, hogy felügyelt identitásokat használjunk az Azure-erőforrásokhoz. A Microsoft Entra ID-ban automatikusan felügyelt Data Factory-identitásra épülő felügyelt identitások lehetővé teszik a folyamatok konfigurálását anélkül, hogy hitelesítő adatokat ad meg a társított szolgáltatás definíciójában. A Blob Storage szolgáltatásnévvel, közös hozzáférésű jogosultságkóddal vagy tárfiók-kulccsal is hitelesíthető.
- Több hitelesítési típus is támogatott a Data Lake Storage Gen2-hez való csatlakozáshoz. Erősen javasoljuk, hogy felügyelt identitásokat használjon az Azure-erőforrásokhoz, de használhat szolgáltatásnevet vagy tárfiókkulcsot is.
- Ha nem felügyelt identitásokat használ az Azure-erőforrásokhoz, javasoljuk , hogy tárolja a hitelesítő adatokat az Azure Key Vaultban , hogy egyszerűbb legyen a kulcsok központi kezelése és elforgatása a Data Factory társított szolgáltatásainak módosítása nélkül. Ez a CI/CD esetében is ajánlott eljárás.
Kezdeti pillanatképadatok migrálása
Data Factory DistCp módban létrehozhat egy másolási tevékenységet a DistCp parancs elküldéséhez, és különböző paraméterekkel szabályozhatja a kezdeti adatmigrálási viselkedést.
A Data Factory natív integrációs futtatókörnyezeti módban az adatpartíciót javasoljuk, különösen akkor, ha 10 TB-nál több adatot migrál. Az adatok particionálásához használja a HDFS mappaneveit. Ezután minden Data Factory másolási feladat egyszerre egy mappapartíciót másolhat. A jobb átviteli sebesség érdekében egyszerre több Data Factory másolási feladatot is futtathat.
Ha bármelyik másolási feladat hálózati vagy adattárbeli átmeneti problémák miatt meghiúsul, újrafuttathatja a sikertelen másolási feladatot az adott partíció HDFS-ből való újratöltéséhez. Más partíciókat betöltő másolási feladatokra nincs hatással.
Delta-adatok migrálása
Data Factory DistCp módban használhatja a DistCp parancssori paramétert -update
, amely akkor ír adatokat, ha a forrásfájl és a célfájl mérete eltérő, a delta adatmigráláshoz.
A Data Factory natív integrációs módjában az új vagy módosított fájlok HDFS-ből való azonosításának leghasznosabb módja egy időparticionált elnevezési konvenció használata. Ha a HDFS-ben lévő adatok időszeletelési adatokkal vannak particionálva a fájl vagy mappa nevében (például /yyyy/mm/dd/file.csv), a folyamat könnyen azonosíthatja, hogy mely fájlokat és mappákat másolja növekményesen.
Ha a HDFS-ben lévő adatok nem időparticionáltak, a Data Factory a LastModifiedDate értékével azonosíthat új vagy módosított fájlokat. A Data Factory a HDFS összes fájlját megvizsgálja, és csak azokat az új és frissített fájlokat másolja, amelyek legutóbb módosított időbélyege nagyobb, mint egy beállított érték.
Ha nagy számú fájl található a HDFS-ben, a kezdeti fájlvizsgálat hosszú időt vehet igénybe, függetlenül attól, hogy hány fájl felel meg a szűrőfeltételnek. Ebben a forgatókönyvben azt javasoljuk, hogy először particionálja az adatokat ugyanazzal a partícióval, amelyet a kezdeti pillanatkép-migráláshoz használt. Ezután a fájlvizsgálat párhuzamosan is megtörténhet.
Ár becslése
Fontolja meg az alábbi folyamatot az adatok HDFS-ből Azure Blob Storage-ba való migrálásához:
Tegyük fel, hogy a következő információk:
- A teljes adatmennyiség 1 PB.
- Az adatokat a Data Factory natív integrációs futtatókörnyezeti módjával migrálhatja.
- Az 1 PB 1000 partícióra van osztva, és minden másolat egy partíciót helyez át.
- Minden másolási tevékenység egy saját üzemeltetésű integrációs modullal van konfigurálva, amely négy géphez van társítva, és amely 500 MBps átviteli sebességet ér el.
- A ForEach egyidejűsége 4 , az összesített átviteli sebesség pedig 2 GBps.
- A migrálás összesen 146 órát vesz igénybe.
Íme a becsült ár a feltételezéseink alapján:
Megjegyzés:
Ez egy hipotetikus díjszabási példa. A tényleges díjszabás a környezet tényleges átviteli sebességétől függ. A (saját üzemeltetésű integrációs futtatókörnyezettel rendelkező) Azure Windows rendszerű virtuális gépek árát nem tartalmazza.
További referenciák
- HDFS-összekötő
- Azure Blob Storage-összekötő
- Azure Data Lake Storage Gen2-összekötő
- Copy tevékenység teljesítmény finomhangolási útmutatója
- Create and configure a self-hosted integration runtime
- A helyi integrációs modul magas rendelkezésre állása és méretezhetősége
- Adatáthelyezési biztonsági szempontok
- Hitelesítő adatok tárolása az Azure Key Vaultban
- Fájl növekményes másolása időparticionált fájlnév alapján
- Új és módosított fájlok másolása a LastModifiedDate alapján
- A Data Factory díjszabási oldala
Kapcsolódó tartalom
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: