Adatfolyamok használata folyamatokban

Cikk
10/26/2023

Ha összetett folyamatokat hoz létre több adatfolyammal, a logikai folyamat nagy hatással lehet az időzítésre és a költségekre. Ez a szakasz a különböző architektúrastratégiák hatását ismerteti.

Adatfolyamok párhuzamos végrehajtása

Ha több adatfolyamot hajt végre párhuzamosan, a szolgáltatás minden tevékenységhez külön Spark-fürtöket hoz létre. Ez lehetővé teszi az egyes feladatok elkülönítését és párhuzamos futtatását, de egyszerre több fürt futtatásához vezet.

Ha az adatfolyamok párhuzamosan futnak, javasoljuk, hogy ne engedélyezze az Azure IR-időt az élő tulajdonság számára, mert az több nem használt meleg készlethez vezet.

Tipp.

Ahelyett, hogy ugyanazt az adatfolyamot többször futtatja egy-egy tevékenységnél, az adatokat egy data lake-ben kell elvégeznie, és helyettesítő elérési utakat használva dolgozza fel az adatokat egyetlen adatfolyamban.

Adatfolyamok szekvenciális végrehajtása

Ha az adatfolyam-tevékenységeket egymás után hajtja végre, javasoljuk, hogy állítson be egy TTL-t az Azure IR-konfigurációban. A szolgáltatás újra felhasználja a számítási erőforrásokat, ami gyorsabb fürtindítási időt eredményez. Minden tevékenység továbbra is el van különítve, és minden végrehajtáshoz új Spark-környezetet kap.

Egyetlen adatfolyam túlterhelése

Ha az összes logikát egyetlen adatfolyamba helyezi, a szolgáltatás a teljes feladatot egyetlen Spark-példányon hajtja végre. Bár ez a költségek csökkentésének módja lehet, a különböző logikai folyamatok keverednek, és nehéz lehet monitorozni és hibakeresést végezni. Ha egy összetevő meghibásodik, a feladat többi része is meghiúsul. Ajánlott az adatfolyamok független üzleti logikával történő rendszerezése. Ha az adatfolyam túl nagy lesz, a különálló összetevőkre való felosztás megkönnyíti a monitorozást és a hibakeresést. Bár az adatfolyamok átalakításainak száma nincs korlátozva, a túl sok miatt a feladat összetettebbé válik.

Fogadók párhuzamos végrehajtása

Az adatfolyam-fogadók alapértelmezett viselkedése az, hogy egymás után, soros módon hajtják végre az egyes fogadókat, és ha hiba történik a fogadóban, az adatfolyam meghiúsul. Emellett az összes fogadó alapértelmezés szerint ugyanarra a csoportra van beállítva, hacsak nem lép be az adatfolyam tulajdonságaiba, és nem állít be különböző prioritásokat a fogadók számára.

Az adatfolyamok lehetővé teszik, hogy a fogadókat csoportokba csoportosítsa a felhasználói felület tervezőjének adatfolyam-tulajdonságok lapján. Mindkettő beállíthatja a fogadók végrehajtási sorrendjét, és csoportosíthatja a fogadókat ugyanazzal a csoportszámmal. A csoportok kezeléséhez megkérheti a szolgáltatást, hogy ugyanabban a csoportban futtassa a fogadókat, és futtassa párhuzamosan.

A folyamat "Fogadó tulajdonságai" szakaszában az adatfolyam-tevékenység végrehajtása lehetőség a párhuzamos fogadóbetöltés bekapcsolására. Ha engedélyezi a "párhuzamos futtatás" lehetőséget, az adatfolyamok írását a csatlakoztatott fogadókra utasítja, nem pedig szekvenciális módon. A párhuzamos beállítás használatához a fogadókat egy új ágon vagy feltételes felosztáson keresztül kell csoportosítani és ugyanahhoz a streamhez csatlakoztatni.

Azure Synapse-adatbázissablonok elérése folyamatokban

Azure Synapse-adatbázissablont használhat egy folyamat crating során. Új adatfolyam létrehozásakor a forrás- vagy fogadóbeállítások között válassza a Workspace DB lehetőséget. Az adatbázis legördülő menüje felsorolja az adatbázissablonon keresztül létrehozott adatbázisokat. A Workspace DB beállítás csak új adatfolyamokhoz érhető el, a Synapse studio katalógusából származó meglévő folyamat használatakor nem érhető el.

További Adatfolyam teljesítményre vonatkozó cikkek:

Megosztás a következőn keresztül:

Adatfolyamok használata folyamatokban

Adatfolyamok párhuzamos végrehajtása

Adatfolyamok szekvenciális végrehajtása

Egyetlen adatfolyam túlterhelése

Fogadók párhuzamos végrehajtása

Azure Synapse-adatbázissablonok elérése folyamatokban

Visszajelzés

További források

Megosztás a következőn keresztül:

Adatfolyamok használata folyamatokban

Adatfolyamok párhuzamos végrehajtása

Adatfolyamok szekvenciális végrehajtása

Egyetlen adatfolyam túlterhelése

Fogadók párhuzamos végrehajtása

Azure Synapse-adatbázissablonok elérése folyamatokban

Kapcsolódó tartalom

Visszajelzés

További források