Útmutató a másolási tevékenységek teljesítményéhez és skálázhatóságához

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Néha nagy léptékű adatmigrálást szeretne végrehajtani a Data Lake-ből vagy a vállalati adattárházból (EDW) az Azure-ba. Máskor nagy mennyiségű adatot szeretne a big data-elemzéshez különböző forrásokból az Azure-ba beszúrni. Minden esetben kritikus fontosságú az optimális teljesítmény és skálázhatóság elérése.

Az Azure Data Factory és az Azure Synapse Analytics-folyamatok az adatok betöltésének mechanizmusát biztosítják az alábbi előnyökkel:

  • Nagy mennyiségű adatot kezel
  • Nagy teljesítményű
  • Költséghatékony

Ezek az előnyök kiválóan alkalmasak az adatmérnökök számára, akik nagy teljesítményű, méretezhető adatbetöltési folyamatokat szeretnének létrehozni.

A cikk elolvasása után a következő kérdésekre válaszolhat:

  • Milyen szintű teljesítményt és méretezhetőséget érhetek el másolási tevékenységekkel az adatmigrálási és adatbetöltési forgatókönyvekben?
  • Milyen lépéseket tegyek a másolási tevékenység teljesítményének finomhangolásához?
  • Milyen teljesítményoptimalizálásokat használhatok egyetlen másolási tevékenység futtatásához?
  • Milyen egyéb külső tényezőket érdemes figyelembe venni a másolási teljesítmény optimalizálása során?

Megjegyzés:

Ha általában nem ismeri a másolási tevékenységet, a cikk elolvasása előtt tekintse meg a másolási tevékenység áttekintését .

A teljesítmény és a méretezhetőség másolása az Azure Data Factory és a Synapse-folyamatok használatával

Az Azure Data Factory és a Synapse-folyamatok kiszolgáló nélküli architektúrát kínálnak, amely lehetővé teszi a párhuzamosságot különböző szinteken.

Ez az architektúra lehetővé teszi olyan folyamatok fejlesztését, amelyek maximalizálják a környezet adatáthelyezési sebességét. Ezek a folyamatok teljes mértékben a következő erőforrásokat használják:

  • Hálózati sávszélesség a forrás- és céladattárak között
  • Forrás- vagy céladattár bemeneti/kimeneti műveletei másodpercenként (IOPS) és sávszélesség

Ez a teljes kihasználtság azt jelenti, hogy megbecsülheti a teljes átviteli sebességet az alábbi erőforrásokkal elérhető minimális átviteli sebesség mérésével:

  • Forrásadattár
  • Céladattár
  • Hálózati sávszélesség a forrás- és céladattárak között

Az alábbi táblázat az adatáthelyezési időtartam kiszámítását mutatja be. Az egyes cellák időtartamát egy adott hálózati és adattárbeli sávszélesség és egy adott adat hasznos adatméret alapján számítjuk ki.

Megjegyzés:

Az alábbi időtartam egy teljes körű adatintegrációs megoldásban elérhető teljesítményt hivatott képviselni a Másolási teljesítményoptimalizálás funkcióban ismertetett egy vagy több teljesítményoptimalizálási módszer használatával, beleértve a ForEach használatát több párhuzamos másolási tevékenység particionálására és lefuttatására. Javasoljuk, hogy kövesse a Teljesítmény finomhangolási lépéseiben leírt lépéseket , hogy optimalizálja a másolási teljesítményt az adott adatkészlethez és rendszerkonfigurációhoz. A teljesítmény-finomhangolási tesztekben kapott számokat az éles környezet tervezéséhez, a kapacitástervezéshez és a számlázási előrejelzéshez kell használnia.

 

Adatméret /
bandwidth
50 Mbit/s 100 Mbps 500 Mbps 1 Gbps 5 Gbps 10 Gbps 50 Gb/s
1 GB 2,7 perc 1,4 perc 0,3 perc 0,1 perc 0,03 perc 0,01 perc 0,0 perc
10 GB 27,3 perc 13,7 perc 2,7 perc 1,3 perc 0,3 perc 0,1 perc 0,03 perc
100 GB 4,6 óra 2,3 óra 0,5 óra 0,2 óra 0,05 óra 0,02 óra 0,0 óra
1 TB 46,6 óra 23,3 óra 4,7 óra 2,3 óra 0,5 óra 0,2 óra 0,05 óra
10 TB 19,4 nap 9,7 nap 1,9 nap 0,9 nap 0,2 nap 0,1 nap 0,02 nap
100 TB 194,2 nap 97,1 nap 19,4 nap 9,7 nap 1,9 nap 1 nap 0,2 nap
1 PB 64,7 mo 32,4 mo 6,5 mo 3.2 mo 0,6 mo 0,3 mo 0,06 mo
10 PB 647,3 mo 323,6 mo 64,7 mo 31,6 mo 6,5 mo 3.2 mo 0,6 mo

A másolás különböző szinteken skálázható:

How copy scales

  • A vezérlési folyamat több másolási tevékenységet is elindíthat párhuzamosan, például az Egyes hurkok esetében.

  • Egy másolási tevékenység kihasználhatja a méretezhető számítási erőforrások előnyeit.

    • Az Azure-integrációs modul (IR) használatakor kiszolgáló nélküli módon legfeljebb 256 adatintegrációs egységet (DIU-t) adhat meg minden másolási tevékenységhez.
    • Saját üzemeltetésű integrációs modul használata esetén az alábbi módszerek egyikét használhatja:
      • Manuálisan skálázza fel a gépet.
      • Horizontális felskálázás több gépre (legfeljebb 4 csomópontra), és egy másolási tevékenység minden csomóponton particionolja a fájlkészletet.
  • Egy másolási tevékenység egyszerre több szál használatával olvas és ír az adattárba.

Teljesítményhangolási lépések

Hajtsa végre a következő lépéseket a szolgáltatás teljesítményének a másolási tevékenységgel való finomhangolásához:

  1. Vegyen fel egy tesztadatkészletet, és hozzon létre egy alapkonfigurációt.

    A fejlesztés során tesztelje a folyamatot a másolási tevékenységgel egy reprezentatív adatmintán. A választott adatkészletnek a következő attribútumok mentén kell ábrázolnia a tipikus adatmintákat:

    • Mappastruktúra
    • Fájlminta
    • Adatséma

    Az adathalmaznak pedig elég nagynak kell lennie a másolási teljesítmény kiértékeléséhez. A másolási tevékenység végrehajtása legalább 10 percet vesz igénybe. A másolási tevékenység figyelése után gyűjtse össze a végrehajtási adatokat és a teljesítményjellemzőket.

  2. Egyetlen másolási tevékenység teljesítményének maximalizálása:

    Javasoljuk, hogy először maximalizálja a teljesítményt egyetlen másolási tevékenység használatával.

    • Ha a másolási tevékenységet azure-integrációs futtatókörnyezetben hajtják végre:

      Kezdje a adatintegráció egységek (DIU) alapértelmezett értékeivel és a párhuzamos másolási beállításokkal.

    • Ha a másolási tevékenységet egy saját üzemeltetésű integrációs modulon hajtja végre:

      Javasoljuk, hogy az integrációs modul üzemeltetéséhez dedikált gépet használjon. A gépnek külön kell lennie az adattárat üzemeltető kiszolgálótól. Kezdje a párhuzamos másolás beállításának alapértelmezett értékeivel, és használjon egyetlen csomópontot a saját üzemeltetésű integrációs modulhoz.

    Végezzen teljesítményteszt-futtatásokat. Jegyezze fel az elért teljesítményt. Adja meg a használt tényleges értékeket, például a DIU-kat és a párhuzamos másolatokat. Tekintse meg a másolási tevékenység figyelését a futtatási eredmények és a használt teljesítménybeállítások gyűjtéséről. Megtudhatja, hogyan háríthatja el a másolási tevékenység teljesítményét a szűk keresztmetszet azonosításához és megoldásához.

    A hibaelhárítási és hangolási útmutatót követve iteráljon további teljesítményteszteket. Ha az egyetlen másolási tevékenység nem tud jobb átviteli sebességet elérni, fontolja meg, hogy egyszerre több példány futtatásával maximalizálja-e az összesített átviteli sebességet. Ezt a lehetőséget a következő számozott listajel ismerteti.

  3. Az összesített átviteli sebesség maximalizálása több példány egyidejű futtatásával:

    Mostanra maximalizálta egy másolási tevékenység teljesítményét. Ha még nem érte el a környezet átviteli sebességének felső korlátját, több másolási tevékenységet is futtathat párhuzamosan. A vezérlőfolyamat-szerkezetek használatával párhuzamosan is futtatható. Az egyik ilyen szerkezet a For Each ciklus. További információt a megoldássablonokról az alábbi cikkekben talál:

  4. Bontsa ki a konfigurációt a teljes adatkészletre.

    Ha elégedett a végrehajtási eredményekkel és a teljesítménnyel, kibonthatja a definíciót és a folyamatot, hogy lefedje a teljes adatkészletet.

Másolási tevékenység teljesítményének hibaelhárítása

Kövesse a teljesítményhangolási lépéseket a forgatókönyv teljesítménytesztjének megtervezéséhez és elvégzéséhez. És megtudhatja, hogyan háríthatja el az egyes másolási tevékenységek futtatásának teljesítményproblémáját a másolási tevékenység teljesítményével kapcsolatos hibák elhárításából.

Teljesítményoptimalizálási funkciók másolása

A szolgáltatás a következő teljesítményoptimalizálási funkciókat biztosítja:

Adatintegrációs egységek

A adatintegráció egység (DIU) az Azure Data Factory és a Synapse-folyamatok egyetlen egységének teljesítményét képviselő mérték. A teljesítmény a processzor, a memória és a hálózati erőforrások lefoglalásának kombinációja. A DIU csak az Azure-integrációs futtatókörnyezetre vonatkozik. A DIU nem vonatkozik a saját üzemeltetésű integrációs futtatókörnyezetre. További információt itt talál.

Saját üzemeltetésű integrációs modul skálázhatósága

Előfordulhat, hogy növekvő egyidejű számítási feladatot szeretne üzemeltetni. Vagy magasabb teljesítményt szeretne elérni a jelenlegi számítási feladat szintjén. A feldolgozás skáláját a következő megközelítések segítségével javíthatja:

  • A csomóponton futtatható egyidejű feladatok számának növelésével skálázhatja fel a saját üzemeltetésű integrációs modult.
    A vertikális felskálázás csak akkor működik, ha a csomópont processzora és memóriája kevesebb, mint teljes mértékben kihasználva.
  • A saját üzemeltetésű integrációs modult további csomópontok (gépek) hozzáadásával skálázhatja fel .

For more information, see:

Párhuzamos másolás

A tulajdonságot beállíthatja parallelCopies úgy, hogy jelezze a másolási tevékenység párhuzamosságát. Ezt a tulajdonságot a másolási tevékenységen belüli szálak maximális számának tekinti. A szálak párhuzamosan működnek. A szálak vagy a forrásból olvasnak, vagy a fogadó adattárakba írnak. További információ.

Szakaszos másolat

Az adatmásolási művelet közvetlenül a fogadó adattárba küldheti az adatokat. Másik lehetőségként dönthet úgy is, hogy a Blob Storage-t átmeneti átmeneti tárolóként használja. További információ.

Lásd a többi másolási tevékenységről szóló cikket: