Copy activity teljesítmény- és méretezhetőségi útmutató

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Előfordulhat, hogy nagy léptékű adatmigrálást szeretne végrehajtani a Data Lake-ből vagy a vállalati adattárházból (EDW) a Azure. Szeretné máskor nagy mennyiségű adatot különböző forrásokból az Azure-ba betölteni bigdata elemzéshez. Minden esetben kritikus fontosságú az optimális teljesítmény és skálázhatóság elérése.

Azure Data Factory és Azure Synapse Analytics folyamatok az adatok betöltésének mechanizmusát biztosítják az alábbi előnyökkel:

  • Nagy mennyiségű adatot kezel
  • Nagy teljesítményű
  • Költséghatékony

Ezek az előnyök kiválóan alkalmasak az adatmérnökök számára, akik nagy teljesítményű, méretezhető adatbetöltési folyamatokat szeretnének létrehozni.

A cikk elolvasása után a következő kérdésekre válaszolhat:

  • Milyen szintű teljesítményt és méretezhetőséget érhetek el másolási tevékenységekkel az adatmigrálási és adatbetöltési forgatókönyvekben?
  • Milyen lépéseket tegyek a másolási tevékenység teljesítményének finomhangolásához?
  • Milyen teljesítményoptimalizálásokat használhatok egyetlen másolási tevékenység futtatásához?
  • Milyen egyéb külső tényezőket érdemes figyelembe venni a másolási teljesítmény optimalizálása során?

Note

Ha általában nem ismeri a másolási tevékenységet, a cikk elolvasása előtt tekintse meg a másolási tevékenység áttekintését .

Az Azure Data Factory és a Synapse adatátviteli folyamatok másolási teljesítménye és méretezhetősége

Azure Data Factory és Synapse-folyamatok kiszolgáló nélküli architektúrát kínálnak, amely lehetővé teszi a párhuzamosságot különböző szinteken.

Ez az architektúra lehetővé teszi olyan folyamatok fejlesztését, amelyek maximalizálják a környezet adatáthelyezési sebességét. Ezek a folyamatok teljes mértékben a következő erőforrásokat használják:

  • Hálózati sávszélesség a forrás- és céladattárak között
  • Forrás- vagy céladattár bemeneti/kimeneti műveletei másodpercenként (IOPS) és sávszélesség

Ez a teljes kihasználtság azt jelenti, hogy megbecsülheti a teljes átviteli sebességet az alábbi erőforrásokkal elérhető minimális átviteli sebesség mérésével:

  • Forrásadattár
  • Céladattár
  • Hálózati sávszélesség a forrás- és céladattárak között

Az alábbi táblázat az adatáthelyezési időtartam kiszámítását mutatja be. Az egyes cellák időtartamát egy adott hálózati és adattároló sávszélessége, valamint egy adott adathasznos teher mérete alapján számítjuk ki.

Note

Az alábbi időtartam egy teljes körű adatintegrációs megoldásban elérhető teljesítményt hivatott képviselni a Másolási teljesítményoptimalizálás funkcióban ismertetett egy vagy több teljesítményoptimalizálási módszer használatával, beleértve a ForEach használatát több párhuzamos másolási tevékenység particionálására és lefuttatására. Javasoljuk, hogy kövesse a Teljesítmény finomhangolási lépéseiben leírt lépéseket , hogy optimalizálja a másolási teljesítményt az adott adatkészlethez és rendszerkonfigurációhoz. A teljesítményhangolási tesztekben kapott számokat az éles környezet tervezéséhez, a kapacitástervezéshez és a számlázási előrejelzéshez kell használnia.

 

Adatméret /
sávszélesség
50 Mb/s 100 Mb/s 500 Mbit/s 1 Gbit/s 5 Gbit/s 10 Gbps 50 Gb/s
1 GB 2,7 perc 1,4 perc 0,3 perc 0,1 perc 0,03 perc 0,01 perc 0,0 perc
10 GB 27,3 perc 13,7 perc 2,7 perc 1,3 perc 0,3 perc 0,1 perc 0,03 perc
100 GB 4,6 óra 2,3 óra 0,5 óra 0,2 óra 0,05 óra 0,02 óra 0,0 óra
1 TB 46,6 óra 23,3 óra 4,7 óra 2,3 óra 0,5 óra 0,2 óra 0,05 óra
10 TB 19,4 nap 9,7 nap 1,9 nap 0,9 nap 0,2 nap 0,1 nap 0,02 nap
100 TB 194,2 nap 97,1 nap 19,4 nap 9,7 nap 1,9 nap 1 nap 0,2 nap
1 PB 64,7 mo 32,4 mo 6,5 mo 3.2 mo 0,6 mo 0,3 mo 0,06 mo
10 PB 647,3 mo 323,6 mo 64,7 mo 31,6 mo 6,5 mo 3.2 mo 0,6 mo

A másolás különböző szinteken skálázható:

Hogyan történik a másolás skálázása

  • A vezérlési folyamat több másolási tevékenységet is elindíthat párhuzamosan, például For Each ciklus használatával.

  • Egy másolási tevékenység kihasználhatja a méretezhető számítási erőforrások előnyeit.

    • Az Azure integrációs modul (IR) használatakor kiszolgáló nélküli módon megadhatja legfeljebb 256 adatintegrációs egységet (DIUs).
    • Saját üzemeltetésű integrációs modul használata esetén az alábbi módszerek egyikét használhatja:
      • Manuálisan növelje a rendszer kapacitását.
      • Horizontális felskálázás több gépre (legfeljebb 4 csomópontra), és egy másolási tevékenység minden csomóponton particionolja a fájlkészletet.
  • Egy másolási tevékenység egyszerre több szál használatával olvas és ír az adattárba.

Teljesítményhangolási lépések

Hajtsa végre a következő lépéseket a szolgáltatás teljesítményének a másolási tevékenységgel való finomhangolásához:

  1. Vegyen fel egy tesztadatkészletet, és hozzon létre egy alapkonfigurációt.

    A fejlesztés során tesztelje a csővezetékét egy reprezentatív adatmintán végzett másolási művelettel. A választott adatkészletnek a következő attribútumok mentén kell ábrázolnia a tipikus adatmintákat:

    • Mappastruktúra
    • Fájlminta
    • Adatséma

    Az adathalmaznak pedig elég nagynak kell lennie a másolási teljesítmény kiértékeléséhez. A másolási tevékenység végrehajtása legalább 10 percet vesz igénybe. A másolási tevékenység figyelése után gyűjtse össze a végrehajtási adatokat és a teljesítményjellemzőket.

  2. Egyetlen másolási tevékenység teljesítményének maximalizálása:

    Javasoljuk, hogy először maximalizálja a teljesítményt egyetlen másolási tevékenység használatával.

    • A másolási tevékenység végrehajtása Azure integrációs modulon:

      Kezdje a adatintegráció egységek (DIU) alapértelmezett értékeivel és a párhuzamos másolási beállításokkal.

    • Ha a másolási tevékenységet egy saját üzemeltetésű integrációs modulon hajtja végre:

      Javasoljuk, hogy az IR üzemeltetésére dedikált gépet használjon. A gépnek külön kell lennie az adattárat üzemeltető kiszolgálótól. Kezdje a párhuzamos másolás beállításának alapértelmezett értékeivel, és használjon egyetlen csomópontot a saját üzemeltetésű integrációs modulhoz.

    Végezzen teljesítményteszt-futtatásokat. Jegyezze fel az elért teljesítményt. Adja meg a használt tényleges értékeket, például a DIU-kat és a párhuzamos másolatokat. Tekintse meg a másolási műveletek figyelését a futtatási eredmények összegyűjtésére és a használt teljesítménybeállításokra vonatkozó utasításokat. Megtudhatja, hogyan oldja meg a másolási tevékenység teljesítményproblémáit a szűk keresztmetszet azonosításához és megoldásához.

    A hibaelhárítási és finomhangolási útmutatót követve iterálja a további teljesítménytesztek futtatását. Ha egy másolási tevékenység futtatása nem éri el a jobb átviteli sebességet, fontolja meg, hogy több példány egyidejű futtatásával maximalizálja-e az összesített átviteli sebességet. Ezt a lehetőséget a következő számozott listajel ismerteti.

  3. Az összesített átviteli sebesség maximalizálása több példány egyidejű futtatásával:

    Mostanra maximalizálta egyetlen másolási művelet teljesítményét. Ha még nem érte el a környezet átviteli sebességének felső korlátját, több másolási tevékenységet is futtathat párhuzamosan. A vezérlőfolyamat-szerkezetek használatával párhuzamosan is futtatható. Az egyik ilyen szerkezet a For Each ciklus. További információt a megoldássablonokról az alábbi cikkekben talál:

  4. Bontsa ki a konfigurációt a teljes adatkészletre.

    Ha elégedett a végrehajtási eredményekkel és a teljesítménnyel, kibonthatja a definíciót és a folyamatot, hogy lefedje a teljes adatkészletet.

Másolási tevékenység teljesítmény hibaelhárítása

Kövesse a teljesítményhangolási lépéseket a forgatókönyv teljesítménytesztjének megtervezéséhez és elvégzéséhez. Ismerje meg, hogyan háríthatja el az egyes másolási tevékenységek futásának teljesítményproblémáit a Másolási tevékenység teljesítményének elhárítása részből.

Teljesítményoptimalizálási funkciók másolása

A szolgáltatás a következő teljesítményoptimalizálási funkciókat biztosítja:

Adatintegrációs egységek

Az adatintegrációs egység (DIU) egy olyan mérték, amely egyetlen egység teljesítményét képviseli Azure Data Factory és Synapse-folyamatokban. A teljesítmény a processzor, a memória és a hálózati erőforrások lefoglalásának kombinációja. A DIU csak a Azure integrációs modulra vonatkozik. A DIU nem vonatkozik a saját üzemeltetésű integrációs futtatókörnyezetre. További információt itt talál.

Saját üzemeltetésű integrációs modul skálázhatósága

Előfordulhat, hogy növekvő egyidejű számítási feladatot szeretne üzemeltetni. Vagy magasabb teljesítményt szeretne elérni a jelenlegi számítási feladat szintjén. A feldolgozás skáláját a következő megközelítések segítségével javíthatja:

  • A csomóponton futtatható egyidejű feladatok számának növelésével skálázhatja fel a saját üzemeltetésű integrációs modult.
    A méretnövelés csak akkor működik, ha a csomópont processzora és memóriája nem teljesen kihasznált.
  • A saját üzemeltetésű integrációs modult további csomópontok (gépek) hozzáadásával skálázhatja ki.

További információk:

Párhuzamos másolás

A parallelCopies tulajdonságot úgy állíthatja be, hogy jelezze az Ön által kívánt másolási tevékenység párhuzamosságát. Tekintse ezt a tulajdonságot a másolási műveleten belüli szálak maximális számának. A szálak párhuzamosan működnek. A szálak vagy a forrásból olvasnak, vagy a fogadó adattárakba írnak. További információ.

Előkészített másolat

Az adatmásolási művelet közvetlenül a fogadó adattárba küldheti az adatokat. Másik lehetőségként dönthet úgy is, hogy a Blob storage-t átmeneti tárolóként használja. További információ.

Lásd a többi másolási tevékenységről szóló cikket: