Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Vonatkozik:
Azure Data Factory
Azure Synapse Analytics
Tip
Előfordulhat, hogy nagy léptékű adatmigrálást szeretne végrehajtani a Data Lake-ből vagy a vállalati adattárházból (EDW) a Azure. Szeretné máskor nagy mennyiségű adatot különböző forrásokból az Azure-ba betölteni bigdata elemzéshez. Minden esetben kritikus fontosságú az optimális teljesítmény és skálázhatóság elérése.
Azure Data Factory és Azure Synapse Analytics folyamatok az adatok betöltésének mechanizmusát biztosítják az alábbi előnyökkel:
- Nagy mennyiségű adatot kezel
- Nagy teljesítményű
- Költséghatékony
Ezek az előnyök kiválóan alkalmasak az adatmérnökök számára, akik nagy teljesítményű, méretezhető adatbetöltési folyamatokat szeretnének létrehozni.
A cikk elolvasása után a következő kérdésekre válaszolhat:
- Milyen szintű teljesítményt és méretezhetőséget érhetek el másolási tevékenységekkel az adatmigrálási és adatbetöltési forgatókönyvekben?
- Milyen lépéseket tegyek a másolási tevékenység teljesítményének finomhangolásához?
- Milyen teljesítményoptimalizálásokat használhatok egyetlen másolási tevékenység futtatásához?
- Milyen egyéb külső tényezőket érdemes figyelembe venni a másolási teljesítmény optimalizálása során?
Note
Ha általában nem ismeri a másolási tevékenységet, a cikk elolvasása előtt tekintse meg a másolási tevékenység áttekintését .
Az Azure Data Factory és a Synapse adatátviteli folyamatok másolási teljesítménye és méretezhetősége
Azure Data Factory és Synapse-folyamatok kiszolgáló nélküli architektúrát kínálnak, amely lehetővé teszi a párhuzamosságot különböző szinteken.
Ez az architektúra lehetővé teszi olyan folyamatok fejlesztését, amelyek maximalizálják a környezet adatáthelyezési sebességét. Ezek a folyamatok teljes mértékben a következő erőforrásokat használják:
- Hálózati sávszélesség a forrás- és céladattárak között
- Forrás- vagy céladattár bemeneti/kimeneti műveletei másodpercenként (IOPS) és sávszélesség
Ez a teljes kihasználtság azt jelenti, hogy megbecsülheti a teljes átviteli sebességet az alábbi erőforrásokkal elérhető minimális átviteli sebesség mérésével:
- Forrásadattár
- Céladattár
- Hálózati sávszélesség a forrás- és céladattárak között
Az alábbi táblázat az adatáthelyezési időtartam kiszámítását mutatja be. Az egyes cellák időtartamát egy adott hálózati és adattároló sávszélessége, valamint egy adott adathasznos teher mérete alapján számítjuk ki.
Note
Az alábbi időtartam egy teljes körű adatintegrációs megoldásban elérhető teljesítményt hivatott képviselni a Másolási teljesítményoptimalizálás funkcióban ismertetett egy vagy több teljesítményoptimalizálási módszer használatával, beleértve a ForEach használatát több párhuzamos másolási tevékenység particionálására és lefuttatására. Javasoljuk, hogy kövesse a Teljesítmény finomhangolási lépéseiben leírt lépéseket , hogy optimalizálja a másolási teljesítményt az adott adatkészlethez és rendszerkonfigurációhoz. A teljesítményhangolási tesztekben kapott számokat az éles környezet tervezéséhez, a kapacitástervezéshez és a számlázási előrejelzéshez kell használnia.
| Adatméret / sávszélesség |
50 Mb/s | 100 Mb/s | 500 Mbit/s | 1 Gbit/s | 5 Gbit/s | 10 Gbps | 50 Gb/s |
|---|---|---|---|---|---|---|---|
| 1 GB | 2,7 perc | 1,4 perc | 0,3 perc | 0,1 perc | 0,03 perc | 0,01 perc | 0,0 perc |
| 10 GB | 27,3 perc | 13,7 perc | 2,7 perc | 1,3 perc | 0,3 perc | 0,1 perc | 0,03 perc |
| 100 GB | 4,6 óra | 2,3 óra | 0,5 óra | 0,2 óra | 0,05 óra | 0,02 óra | 0,0 óra |
| 1 TB | 46,6 óra | 23,3 óra | 4,7 óra | 2,3 óra | 0,5 óra | 0,2 óra | 0,05 óra |
| 10 TB | 19,4 nap | 9,7 nap | 1,9 nap | 0,9 nap | 0,2 nap | 0,1 nap | 0,02 nap |
| 100 TB | 194,2 nap | 97,1 nap | 19,4 nap | 9,7 nap | 1,9 nap | 1 nap | 0,2 nap |
| 1 PB | 64,7 mo | 32,4 mo | 6,5 mo | 3.2 mo | 0,6 mo | 0,3 mo | 0,06 mo |
| 10 PB | 647,3 mo | 323,6 mo | 64,7 mo | 31,6 mo | 6,5 mo | 3.2 mo | 0,6 mo |
A másolás különböző szinteken skálázható:
A vezérlési folyamat több másolási tevékenységet is elindíthat párhuzamosan, például For Each ciklus használatával.
Egy másolási tevékenység kihasználhatja a méretezhető számítási erőforrások előnyeit.
- Az Azure integrációs modul (IR) használatakor kiszolgáló nélküli módon megadhatja legfeljebb 256 adatintegrációs egységet (DIUs).
- Saját üzemeltetésű integrációs modul használata esetén az alábbi módszerek egyikét használhatja:
- Manuálisan növelje a rendszer kapacitását.
- Horizontális felskálázás több gépre (legfeljebb 4 csomópontra), és egy másolási tevékenység minden csomóponton particionolja a fájlkészletet.
Egy másolási tevékenység egyszerre több szál használatával olvas és ír az adattárba.
Teljesítményhangolási lépések
Hajtsa végre a következő lépéseket a szolgáltatás teljesítményének a másolási tevékenységgel való finomhangolásához:
Vegyen fel egy tesztadatkészletet, és hozzon létre egy alapkonfigurációt.
A fejlesztés során tesztelje a csővezetékét egy reprezentatív adatmintán végzett másolási művelettel. A választott adatkészletnek a következő attribútumok mentén kell ábrázolnia a tipikus adatmintákat:
- Mappastruktúra
- Fájlminta
- Adatséma
Az adathalmaznak pedig elég nagynak kell lennie a másolási teljesítmény kiértékeléséhez. A másolási tevékenység végrehajtása legalább 10 percet vesz igénybe. A másolási tevékenység figyelése után gyűjtse össze a végrehajtási adatokat és a teljesítményjellemzőket.
Egyetlen másolási tevékenység teljesítményének maximalizálása:
Javasoljuk, hogy először maximalizálja a teljesítményt egyetlen másolási tevékenység használatával.
A másolási tevékenység végrehajtása Azure integrációs modulon:
Kezdje a adatintegráció egységek (DIU) alapértelmezett értékeivel és a párhuzamos másolási beállításokkal.
Ha a másolási tevékenységet egy saját üzemeltetésű integrációs modulon hajtja végre:
Javasoljuk, hogy az IR üzemeltetésére dedikált gépet használjon. A gépnek külön kell lennie az adattárat üzemeltető kiszolgálótól. Kezdje a párhuzamos másolás beállításának alapértelmezett értékeivel, és használjon egyetlen csomópontot a saját üzemeltetésű integrációs modulhoz.
Végezzen teljesítményteszt-futtatásokat. Jegyezze fel az elért teljesítményt. Adja meg a használt tényleges értékeket, például a DIU-kat és a párhuzamos másolatokat. Tekintse meg a másolási műveletek figyelését a futtatási eredmények összegyűjtésére és a használt teljesítménybeállításokra vonatkozó utasításokat. Megtudhatja, hogyan oldja meg a másolási tevékenység teljesítményproblémáit a szűk keresztmetszet azonosításához és megoldásához.
A hibaelhárítási és finomhangolási útmutatót követve iterálja a további teljesítménytesztek futtatását. Ha egy másolási tevékenység futtatása nem éri el a jobb átviteli sebességet, fontolja meg, hogy több példány egyidejű futtatásával maximalizálja-e az összesített átviteli sebességet. Ezt a lehetőséget a következő számozott listajel ismerteti.
Az összesített átviteli sebesség maximalizálása több példány egyidejű futtatásával:
Mostanra maximalizálta egyetlen másolási művelet teljesítményét. Ha még nem érte el a környezet átviteli sebességének felső korlátját, több másolási tevékenységet is futtathat párhuzamosan. A vezérlőfolyamat-szerkezetek használatával párhuzamosan is futtatható. Az egyik ilyen szerkezet a For Each ciklus. További információt a megoldássablonokról az alábbi cikkekben talál:
Bontsa ki a konfigurációt a teljes adatkészletre.
Ha elégedett a végrehajtási eredményekkel és a teljesítménnyel, kibonthatja a definíciót és a folyamatot, hogy lefedje a teljes adatkészletet.
Másolási tevékenység teljesítmény hibaelhárítása
Kövesse a teljesítményhangolási lépéseket a forgatókönyv teljesítménytesztjének megtervezéséhez és elvégzéséhez. Ismerje meg, hogyan háríthatja el az egyes másolási tevékenységek futásának teljesítményproblémáit a Másolási tevékenység teljesítményének elhárítása részből.
Teljesítményoptimalizálási funkciók másolása
A szolgáltatás a következő teljesítményoptimalizálási funkciókat biztosítja:
- Adatintegrációs egységek
- Saját üzemeltetésű integrációs modul skálázhatósága
- Párhuzamos másolás
- Előkészített másolat
Adatintegrációs egységek
Az adatintegrációs egység (DIU) egy olyan mérték, amely egyetlen egység teljesítményét képviseli Azure Data Factory és Synapse-folyamatokban. A teljesítmény a processzor, a memória és a hálózati erőforrások lefoglalásának kombinációja. A DIU csak a Azure integrációs modulra vonatkozik. A DIU nem vonatkozik a saját üzemeltetésű integrációs futtatókörnyezetre. További információt itt talál.
Saját üzemeltetésű integrációs modul skálázhatósága
Előfordulhat, hogy növekvő egyidejű számítási feladatot szeretne üzemeltetni. Vagy magasabb teljesítményt szeretne elérni a jelenlegi számítási feladat szintjén. A feldolgozás skáláját a következő megközelítések segítségével javíthatja:
- A csomóponton futtatható egyidejű feladatok számának növelésével skálázhatja fel a saját üzemeltetésű integrációs modult.
A méretnövelés csak akkor működik, ha a csomópont processzora és memóriája nem teljesen kihasznált. - A saját üzemeltetésű integrációs modult további csomópontok (gépek) hozzáadásával skálázhatja ki.
További információk:
- Copy activity teljesítményoptimalizálási funkciók: Saját üzemeltetésű integrációs modul méretezhetősége
- Saját üzemeltetésű integrációs futtatókörnyezet létrehozása és konfigurálása: Skálázási szempontok
Párhuzamos másolás
A parallelCopies tulajdonságot úgy állíthatja be, hogy jelezze az Ön által kívánt másolási tevékenység párhuzamosságát. Tekintse ezt a tulajdonságot a másolási műveleten belüli szálak maximális számának. A szálak párhuzamosan működnek. A szálak vagy a forrásból olvasnak, vagy a fogadó adattárakba írnak.
További információ.
Előkészített másolat
Az adatmásolási művelet közvetlenül a fogadó adattárba küldheti az adatokat. Másik lehetőségként dönthet úgy is, hogy a Blob storage-t átmeneti tárolóként használja. További információ.
Kapcsolódó tartalom
Lásd a többi másolási tevékenységről szóló cikket: