Sorok deduplikálása és null értékek keresése adatfolyam-kódrészletek használatával
A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Az adatfolyamok leképezéséhez kódrészleteket használva könnyen elvégezhet olyan gyakori feladatokat, mint az adatdeduplikáció és a nullszűrés. Ez a cikk bemutatja, hogyan lehet ezeket a függvényeket egyszerűen hozzáadni a folyamatokhoz adatfolyamszkript-kódrészletek használatával.
Folyamat létrehozása
Válassza a New pipeline (Új folyamat) lehetőséget.
Adatfolyam-tevékenység hozzáadása.
Válassza a Forrásbeállítások lapot, adjon hozzá egy forrásátalakítást, majd csatlakoztassa az egyik adatkészlethez.
A deduplikálási és null-ellenőrzési kódrészletek általános mintákat használnak, amelyek kihasználják az adatfolyam-sémaeltérés előnyeit. A kódrészletek az adathalmaz bármely sémájával működnek, vagy olyan adathalmazokkal, amelyek nem rendelkeznek előre definiált sémával.
Az adatfolyam-szkript (DFS) "Distinct row using all columns" (Distinct row using all columns) szakaszában másolja ki a DistinctRows kódrészletét.
Nyissa meg a Adatfolyam szkript dokumentációs oldalát, és másolja ki a Különböző sorok kódrészletét.
A szkriptben a definíció
source1
után nyomja le az Enter billentyűt, majd illessze be a kódrészletet.A következő lehetőségek közül választhat:
Csatlakozás a beillesztett kódrészletet a gráfban korábban létrehozott forrásátalakításra úgy, hogy beírja a forrás1 fájlt a beillesztett kód elé.
Másik lehetőségként csatlakoztathatja az új átalakítást a tervezőben úgy, hogy kiválasztja a bejövő streamet a gráf új átalakítási csomópontjáról.
Most az adatfolyam az összesítő átalakítással eltávolítja az ismétlődő sorokat a forrásból, amely az összes sor szerint csoportosítja az összes oszlopérték általános kivonatát.
Adjon hozzá egy kódrészletet az adatok egy olyan adatfolyamra való felosztásához, amely null értékű sorokat és egy másik, null értéket nem tartalmazó streamet tartalmaz. To do so:
Térjen vissza a kódrészlettárhoz, és ezúttal másolja a NULL-ellenőrzések kódját.
b. Az adatfolyam-tervezőben válassza ismét a Szkript lehetőséget, majd illessze be az új átalakítási kódot az alsó részre. Ez a művelet összekapcsolja a szkriptet az előző átalakítással úgy, hogy az átalakítás nevét a beillesztett kódrészlet elé helyezi.
Az adatfolyam-diagramnak a következőhöz hasonlóan kell kinéznie:
Most létrehozott egy működő adatfolyamot általános deduplikálással és null ellenőrzésekkel a meglévő kódrészletek Adatfolyam Szkripttárból való felvételével és a meglévő tervbe való felvételével.
Kapcsolódó tartalom
- Az adatfolyam-átalakítások leképezésével hozza létre a többi adatfolyam-logikát.