Sorok deduplikálása és null értékek keresése adatfolyam-kódrészletek használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Az adatfolyamok leképezéséhez kódrészleteket használva könnyen elvégezhet olyan gyakori feladatokat, mint az adatdeduplikáció és a nullszűrés. Ez a cikk bemutatja, hogyan lehet ezeket a függvényeket egyszerűen hozzáadni a folyamatokhoz adatfolyamszkript-kódrészletek használatával.

Folyamat létrehozása

  1. Válassza a New pipeline (Új folyamat) lehetőséget.

  2. Adatfolyam-tevékenység hozzáadása.

  3. Válassza a Forrásbeállítások lapot, adjon hozzá egy forrásátalakítást, majd csatlakoztassa az egyik adatkészlethez.

    Screenshot of the "Source settings" pane for adding a source type.

    A deduplikálási és null-ellenőrzési kódrészletek általános mintákat használnak, amelyek kihasználják az adatfolyam-sémaeltérés előnyeit. A kódrészletek az adathalmaz bármely sémájával működnek, vagy olyan adathalmazokkal, amelyek nem rendelkeznek előre definiált sémával.

  4. Az adatfolyam-szkript (DFS) "Distinct row using all columns" (Distinct row using all columns) szakaszában másolja ki a DistinctRows kódrészletét.

  5. Nyissa meg a Adatfolyam szkript dokumentációs oldalát, és másolja ki a Különböző sorok kódrészletét.

    Screenshot of a source snippet.

  6. A szkriptben a definíció source1után nyomja le az Enter billentyűt, majd illessze be a kódrészletet.

  7. A következő lehetőségek közül választhat:

    • Csatlakozás a beillesztett kódrészletet a gráfban korábban létrehozott forrásátalakításra úgy, hogy beírja a forrás1 fájlt a beillesztett kód elé.

    • Másik lehetőségként csatlakoztathatja az új átalakítást a tervezőben úgy, hogy kiválasztja a bejövő streamet a gráf új átalakítási csomópontjáról.

      Screenshot of the "Conditional split settings" pane.

    Most az adatfolyam az összesítő átalakítással eltávolítja az ismétlődő sorokat a forrásból, amely az összes sor szerint csoportosítja az összes oszlopérték általános kivonatát.

  8. Adjon hozzá egy kódrészletet az adatok egy olyan adatfolyamra való felosztásához, amely null értékű sorokat és egy másik, null értéket nem tartalmazó streamet tartalmaz. To do so:

  9. Térjen vissza a kódrészlettárhoz, és ezúttal másolja a NULL-ellenőrzések kódját.

    b. Az adatfolyam-tervezőben válassza ismét a Szkript lehetőséget, majd illessze be az új átalakítási kódot az alsó részre. Ez a művelet összekapcsolja a szkriptet az előző átalakítással úgy, hogy az átalakítás nevét a beillesztett kódrészlet elé helyezi.

    Az adatfolyam-diagramnak a következőhöz hasonlóan kell kinéznie:

    Screenshot of the data flow graph.

Most létrehozott egy működő adatfolyamot általános deduplikálással és null ellenőrzésekkel a meglévő kódrészletek Adatfolyam Szkripttárból való felvételével és a meglévő tervbe való felvételével.