Share via


Adatok másolása az Azure Data Lake Storage Gen1-ből Gen2-be az Azure Data Factory használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Az Azure Data Lake Storage Gen2 az Azure Blob Storage-ba beépített big data-elemzési képességek készlete. You can use it to interface with your data by using both file system and object storage paradigms.

Ha jelenleg az Azure Data Lake Storage Gen1-et használja, az Azure Data Lake Storage Gen2 kiértékeléséhez másolja az adatokat a Data Lake Storage Gen1-ből Gen2-be az Azure Data Factory használatával.

Az Azure Data Factory egy teljes mértékben felügyelt felhőalapú adatintegrációs szolgáltatás. A szolgáltatással feltöltheti a tavat számos helyszíni és felhőalapú adattárból származó adatokkal, és időt takaríthat meg az elemzési megoldások létrehozásakor. A támogatott összekötők listáját a támogatott adattárak táblázatában találja.

Az Azure Data Factory egy kibővített, felügyelt adatáthelyezési megoldást kínál. A Data Factory kibővített architektúrája miatt nagy átviteli sebességgel betöltheti az adatokat. További információ: Copy tevékenység teljesítmény.

Ez a cikk bemutatja, hogyan másolhat adatokat a Data Factory adatmásolási eszközével az Azure Data Lake Storage Gen1-ből az Azure Data Lake Storage Gen2-be. Hasonló lépéseket követve más típusú adattárakból másolhat adatokat.

Előfeltételek

  • Azure-előfizetés. Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
  • Azure Data Lake Storage Gen1-fiók, benne adatokkal.
  • Azure Storage-fiók, amelyen engedélyezve van a Data Lake Storage Gen2. Ha nincs Tárfiókja, hozzon létre egy fiókot.

Adat-előállító létrehozása

  1. Ha még nem hozta létre a data factoryt, kövesse a gyorsútmutató lépéseit : Adat-előállító létrehozása az Azure Portal és az Azure Data Factory Studio használatával. A létrehozás után keresse meg a data factoryt az Azure Portalon.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Válassza a Megnyitás az Azure Data Factory Studio megnyitása csempén a adatintegráció alkalmazás külön lapon való elindításához.

Adatok betöltése az Azure Data Lake Storage Gen2-be

  1. A kezdőlapon válassza az Betöltési csempét a másolási adateszköz elindításához.

    Screenshot that shows the ADF home page.

  2. A Tulajdonságok lapon válassza a Beépített másolási feladat lehetőséget a Tevékenység típusa csoportban, majd válassza a Futtatás egyszer lehetőséget a Tevékenység ütemezése vagy a Feladatütemezés területen, majd válassza a Tovább gombot.

  3. A Forrásadattár lapon válassza az + Új kapcsolat lehetőséget.

  4. Válassza az Azure Data Lake Storage Gen1 elemet az összekötők katalógusában, majd a Folytatás gombot.

    Screenshot showing the page of selecting the Azure Data Lake Storage Gen1 connection.

  5. Az Új kapcsolat (Azure Data Lake Storage Gen1) lapon kövesse az alábbi lépéseket:

    1. Válassza ki az 1. generációs Data Lake Storage-t a fióknévhez, és adja meg vagy ellenőrizze a bérlőt.
    2. Válassza a Kapcsolat tesztelése lehetőséget a beállítások érvényesítéséhez. Válassza a Létrehozás parancsot.

    Fontos

    Ebben az útmutatóban egy felügyelt identitást használ az Azure-erőforrásokhoz az Azure Data Lake Storage Gen1 hitelesítéséhez. Ha a felügyelt identitásnak megfelelő engedélyeket szeretne adni az Azure Data Lake Storage Gen1-ben, kövesse az alábbi utasításokat.

    Screenshot showing the configuration of the Azure Data Lake Storage Gen1 connection.

  6. A Forrásadattár lapon hajtsa végre az alábbi lépéseket.

    1. Válassza ki az újonnan létrehozott kapcsolatot a Csatlakozás ion szakaszban.
    2. A Fájl vagy mappa területen keresse meg azt a mappát és fájlt, amelyet át szeretne másolni. Jelölje ki a mappát vagy a fájlt, majd kattintson az OK gombra.
    3. Adja meg a másolási viselkedést a Rekurzív ésa Bináris másolás lehetőség kiválasztásával. Válassza a Következő lehetőséget.

    Screenshot showing the source data store page.

  7. A Céladattár lapon válassza a + Új kapcsolat>Az Azure Data Lake Storage Gen2>Folytatása lehetőséget.

    Screenshot showing the page of selecting the Azure Data Lake Storage Gen2 connection.

  8. Az Új kapcsolat (Azure Data Lake Storage Gen2) lapon kövesse az alábbi lépéseket:

    1. Válassza ki a Data Lake Storage Gen2-kompatibilis fiókját a Tárfiók neve legördülő listából.
    2. Válassza a Létrehozás lehetőséget a kapcsolat létrehozásához.

    Screenshot showing the configuration of the Azure Data Lake Storage Gen2 connection.

  9. A Céladattár lapon hajtsa végre az alábbi lépéseket.

    1. Válassza ki az újonnan létrehozott kapcsolatot a Csatlakozás ion blokkban.
    2. A Mappa elérési útja területen adja meg a copyfromadlsgen1 nevet a kimeneti mappa neveként, és válassza a Tovább lehetőséget. A Data Factory létrehozza a megfelelő Azure Data Lake Storage Gen2 fájlrendszert és almappákat a másolás során, ha nem léteznek.

    Screenshot showing the destination data store page.

  10. A Gépház lapon adja meg a CopyFromADLSGen1ToGen2 értéket a Tevékenységnév mezőhöz, majd válassza a Tovább gombot az alapértelmezett beállítások használatához.

  11. Az Összefoglalás lapon tekintse át a beállításokat, és válassza a Tovább gombot.

    Screenshot showing the Summary page.

  12. Az Üzembe helyezés lapon válassza a Figyelés lehetőséget a folyamat figyeléséhez.

    Screenshot showing the Deployment page.

  13. Figyelje meg, hogy a bal oldalon található Figyelés lap automatikusan ki lesz választva. A Folyamatnév oszlop hivatkozásokat tartalmaz a tevékenységfuttatás részleteinek megtekintéséhez és a folyamat újrafuttatásához.

    Screenshot showing the page of monitoring pipeline runs.

  14. A folyamatfuttatáshoz társított tevékenységfuttatások megtekintéséhez válassza ki a hivatkozást a Folyamat neve oszlopban. Csak egy (másolási) tevékenység található a folyamatban, ezért csak egy bejegyzést lát. Ha vissza szeretne térni a folyamatfuttatások nézetére, válassza a minden folyamatfuttatás hivatkozását a felső menüben. A lista frissítéséhez kattintson a Frissítés gombra.

    Screenshot showing the page of monitoring activity runs.

  15. Az egyes másolási tevékenységek végrehajtási adatainak figyeléséhez válassza a Tevékenység neve oszlopban található Részletek hivatkozást (szemüvegkép) a tevékenységfigyelési nézetben. Figyelheti az olyan részleteket, mint a forrásból a fogadóba másolt adatok mennyisége, az adatteljesítmény, a megfelelő időtartamú végrehajtási lépések és a használt konfigurációk.

    Screenshot showing the activity run details.

  16. Ellenőrizze, hogy az adatok át vannak-e másolva az Azure Data Lake Storage Gen2-fiókba.

Best practices

Az Azure Data Lake Storage Gen1-ről az Azure Data Lake Storage Gen2-re való frissítés általános értékeléséhez tekintse meg a big data elemzési megoldások frissítését az Azure Data Lake Storage Gen1-ről az Azure Data Lake Storage Gen2-re. Az alábbi szakaszok bemutatják a Data Factory használatának ajánlott eljárásait az 1. generációs Data Lake Storage-ról a Data Lake Storage Gen2-re való adatfrissítéshez.

Kezdeti pillanatképadatok migrálása

Teljesítmény

Az ADF kiszolgáló nélküli architektúrát kínál, amely lehetővé teszi a párhuzamosságot különböző szinteken, ami lehetővé teszi, hogy a fejlesztők olyan folyamatokat építsenek ki, amelyek teljes mértékben kihasználják a hálózati sávszélességet, valamint a tárolási IOPS-t és a sávszélességet, hogy maximalizálják az adatáthelyezési átviteli sebességet a környezet számára.

Az ügyfelek sikeresen migráltak több száz millió fájlból álló petabájtnyi adatot az 1. generációs Data Lake Storage-ból a Gen2-be, 2 GBps-os és magasabb átviteli sebességgel.

A párhuzamosság különböző szintjeinek alkalmazásával nagyobb adatátviteli sebességet érhet el:

  • Az egyetlen másolási tevékenység kihasználhatja a méretezhető számítási erőforrások előnyeit: az Azure Integration Runtime használatakor kiszolgáló nélküli módon legfeljebb 256 adatintegrációs egységet (DIU-t) adhat meg minden másolási tevékenységhez; saját üzemeltetésű integrációs modul használatakor manuálisan skálázhatja fel a gépet, vagy több gépre (legfeljebb 4 csomópontra) méretezheti fel a skálázást. és egyetlen másolási tevékenység minden csomóponton particionálja a fájlkészletet.
  • Egy másolási tevékenység több szál használatával olvas és ír az adattárba.
  • Az ADF-vezérlési folyamat több másolási tevékenységet is elindíthat párhuzamosan, például az Egyes hurkok esetében.

Adatpartíciók

Ha az 1. generációs Data Lake Storage teljes adatmérete kisebb 10 TB-nál, és a fájlok száma kevesebb, mint 1 millió, az összes adatot egyetlen másolási tevékenység futtatásával másolhatja. Ha nagyobb mennyiségű adatot szeretne másolni, vagy rugalmasan szeretné kezelni az adatmigrálást kötegekben, és azokat egy adott időkereten belül teljessé szeretné tenni, particionálja az adatokat. A particionálás emellett csökkenti a váratlan problémák kockázatát.

A fájlok particionálásának módja a névtartomány használata– listAfter/listBefore a másolási tevékenység tulajdonságban. Minden másolási tevékenység konfigurálható úgy, hogy egyszerre egy partíciót másoljon, hogy egyszerre több másolási tevékenység is másolhassa az adatokat egyetlen Data Lake Storage Gen1-fiókból.

Sebességkorlátozás

Ajánlott eljárásként végezzen egy teljesítmény-POC-t egy reprezentatív mintaadatkészlettel, hogy meg tudja határozni a megfelelő partícióméretet.

  1. Kezdje egyetlen partícióval és egyetlen másolási tevékenységgel az alapértelmezett DIU-beállítással. A párhuzamos másolat mindig üres (alapértelmezett) értékre van állítva. Ha a másolási átviteli sebesség nem megfelelő az Ön számára, a teljesítmény finomhangolási lépéseinek követésével azonosíthatja és megoldhatja a teljesítmény szűk keresztmetszeteit.

  2. Fokozatosan növelje a DIU-beállítást, amíg el nem éri a hálózat sávszélességkorlátját vagy az adattárak IOPS/sávszélességkorlátját, vagy elérte az egy másolási tevékenységhez engedélyezett maximális 256 DIU-t.

  3. Ha maximalizálta egy másolási tevékenység teljesítményét, de még nem érte el a környezet átviteli sebességének felső korlátját, több másolási tevékenységet is futtathat párhuzamosan.

Ha jelentős számú szabályozási hibát lát a másolási tevékenység figyelésével kapcsolatban, az azt jelzi, hogy elérte a tárfiók kapacitáskorlátját. Az ADF automatikusan újrapróbálkozza az egyes szabályozási hibák elhárítását, hogy biztosan ne legyen adatvesztés, de a túl sok újrapróbálkozás a másolási átviteli sebességet is csökkentheti. Ilyen esetben javasoljuk, hogy csökkentse az egyidejűleg futó másolási tevékenységek számát, hogy elkerülje a jelentős mennyiségű szabályozási hibát. Ha egyetlen másolási tevékenységet használt az adatok másolásához, javasoljuk, hogy csökkentse a diu-t.

Delta-adatok migrálása

Többféle módszerrel is betöltheti csak az 1. generációs Data Lake Storage új vagy frissített fájljait:

  • Töltse be az új vagy frissített fájlokat a particionált mappa vagy fájlnév alapján. Ilyen például a /2019/05/13/*.
  • Új vagy frissített fájlok betöltése a LastModifiedDate szerint. Ha nagy mennyiségű fájlt másol, először végezze el a partíciókat annak érdekében, hogy az új fájlok azonosítása érdekében ne okozzon alacsony másolási átviteli sebességet az egyetlen másolási tevékenység, amely a teljes Data Lake Storage Gen1-fiókot vizsgálja.
  • Azonosítsa az új vagy frissített fájlokat bármely külső eszköz vagy megoldás által. Ezután adja át a fájl vagy mappa nevét a Data Factory-folyamatnak paraméteren vagy táblán vagy fájlon keresztül.

A növekményes terhelés megfelelő gyakorisága az Azure Data Lake Storage Gen1-ben található fájlok teljes számától és a minden alkalommal betöltendő új vagy frissített fájlok mennyiségétől függ.

Network security

Az ADF alapértelmezés szerint https protokollon keresztül titkosított kapcsolattal továbbítja az adatokat az Azure Data Lake Storage Gen1-ből Gen2-be. A HTTPS adattitkosítást biztosít az átvitel során, és megakadályozza a lehallgatást és a közbeékelt támadásokat.

Másik lehetőségként, ha nem szeretné, hogy az adatok nyilvános interneten keresztül legyenek átadva, nagyobb biztonságot érhet el az adatok magánhálózaton keresztüli átvitelével.

ACL-ek megőrzése

Ha az ACL-eket és az adatfájlokat szeretné replikálni, amikor a Data Lake Storage Gen1-ről a Data Lake Storage Gen2-re frissít, olvassa el az ACL-ek megőrzése a Data Lake Storage Gen1-ből.

Rugalmasság

Az egyetlen másolási tevékenységen belül az ADF beépített újrapróbálkozási mechanizmussal rendelkezik, amely képes kezelni az adattárakban vagy az alapul szolgáló hálózaton előforduló átmeneti hibák bizonyos szintjét. Ha 10 TB-nál több adatot migrál, javasoljuk, hogy particionálja az adatokat a váratlan problémák kockázatának csökkentése érdekében.

A másolási tevékenység hibatűrését is engedélyezheti az előre definiált hibák kihagyásához. A másolási tevékenység adatkonzisztenciájának ellenőrzése további ellenőrzést is lehetővé tehet annak érdekében, hogy az adatok ne csak a forrásból a céltárolóba legyenek átmásolva, hanem a forrás- és céltárolók közötti konzisztensek is legyenek.

Permissions

A Data Factoryben a Data Lake Storage Gen1-összekötő támogatja a szolgáltatásnevet és a felügyelt identitást az Azure-erőforrások hitelesítéséhez. A Data Lake Storage Gen2-összekötő támogatja a fiókkulcsot, a szolgáltatásnevet és a felügyelt identitást az Azure-erőforrások hitelesítéséhez. Ahhoz, hogy a Data Factory képes legyen az összes fájl vagy hozzáférés-vezérlési lista (ACL) közötti navigálásra és másolásra, elég nagy engedélyeket kell adnia a fióknak az összes fájl eléréséhez, olvasásához vagy írásához, és ha úgy dönt, be kell állítania az ACL-eket. A migrálási időszak alatt super-user vagy tulajdonosi szerepkört kell adnia a fióknak, és az áttelepítés befejezése után el kell távolítania az emelt szintű engedélyeket.