Ajánlott eljárások a fájlok data lake-be való írásához adatfolyamokkal

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Ha még nem ismerkedik a Azure Data Factory, tekintse meg a Bevezetés a Azure Data Factory című témakört.

Ebben az oktatóanyagban megismerheti azokat az ajánlott eljárásokat, amelyek akkor alkalmazhatók, ha fájlokat ír az ADLS Gen2-be vagy Azure Blob Storage adatfolyamok használatával. Egy Azure Blob Storage-fiókhoz vagy Azure Data Lake Store Gen2-fiókhoz kell hozzáférnie egy parquet-fájl olvasásához, majd az eredmények mappákban való tárolásához.

Előfeltételek

  • Azure előfizetés. Ha nem rendelkezik Azure előfizetéssel, a kezdés előtt hozzon létre egy free Azure fiókot.
  • Azure tárolófiók. Az ADLS-tárolót forrás- és fogadóadattárként használja. Ha nincs tárfiókja, a A Azure tárfiók létrehozása a létrehozás lépéseit ismerteti.

Az oktatóanyag lépései feltételezik, hogy rendelkezik

Adat-előállító létrehozása

Ebben a lépésben adatgyárat hoz létre, és megnyitja a Data Factory UX-t egy munkafolyamat létrehozásához az adatgyárban.

  1. Nyissa meg Microsoft Edge vagy Google Chrome. A Data Factory felhasználói felülete jelenleg csak a Microsoft Edge és a Google Chrome böngészőkben támogatott.

  2. A bal oldali menüben válassza a Erőforrás létrehozása, >, Adatgyár lehetőséget.

  3. Az Új adatgyár lapján, a Név mezőben adja meg az ADFTutorialDataFactory nevet.

  4. Válassza ki azt a Azure subscription, amelyben létre szeretné hozni az adat-előállítót.

  5. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    a). Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.

    b. Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét. Az erőforráscsoportokról a A Azure erőforráscsoportok kezelése című témakörben olvashat.

  6. A Verzió résznél válassza a V2 értéket.

  7. A Hely területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállító által használt adattárak (például Azure Storage és SQL Database) és számítások (például Azure HDInsight) más régiókban is lehetnek.

  8. Válassza a Létrehozás lehetőséget.

  9. A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.

  10. A Data Factory felhasználói felületének külön lapon történő elindításához válassza a Létrehozás és figyelés csempét.

Folyamat létrehozása adatfolyam-tevékenységgel

Ebben a lépésben egy adatfolyam-tevékenységet tartalmazó folyamatot fog létrehozni.

  1. A Azure Data Factory kezdőlapján válassza a Orchestrate lehetőséget.

    Képernyőkép a Data Factory kezdőlapjáról, amelyen az Orchestrate gomb ki van emelve.

  2. A folyamat Általános lapján adja meg a DeltaLake nevet a folyamat nevéhez.

  3. A gyári felső sávon kapcsolja be a Data Flow hibakeresés csúszkát. A hibakeresési mód lehetővé teszi az átalakítási logika interaktív tesztelését egy élő Spark-fürtön. Data Flow fürtök bemelegedése 5-7 percet vesz igénybe, és a felhasználóknak ajánlott először bekapcsolniuk a hibakeresést, ha Data Flow fejlesztést terveznek. További információ: Hibakeresési mód.

    Adatfolyam Tevékenység

  4. A Tevékenységek panelen bontsa ki az Áthelyezés és átalakítás harmonika elemet. Húzza a Data Flow aktivitást a panelről a pipeline vászonra.

    Képernyőkép, amely azt a csővezeték vászont mutatja, ahová a Data Flow tevékenységet lehet elhelyezni.

Átalakítási logika létrehozása az adatfolyam-vásznon

Minden forrásadatot (ebben az oktatóanyagban Parquet-fájlforrást fogunk használni) fogjuk használni, és fogadó-átalakítással parquet formátumban fogjuk lehozni az adatokat a data lake ETL leghatékonyabb mechanizmusainak használatával.

Végső folyamat

Oktatóanyag célkitűzései

  1. Válasszon ki bármelyik forrásadatkészletet egy új adatfolyamban 1. Adatfolyamok használata a fogadó adatkészlet hatékony particionálásához
  2. Tárold a particionált adatokat az ADLS Gen2 tározómappáiban

Kezdés egy üres adatfolyam-vászonról

Először is állítsuk be az adatfolyam-környezetet az ADLS Gen2-ben az alábbiakban ismertetett összes mechanizmushoz

  1. Kattintson a forrás átalakítására.
  2. Kattintson az adathalmaz melletti új gombra az alsó panelen.
  3. Válasszon egy adatkészletet, vagy hozzon létre egy újat. Ebben a bemutatóban egy Felhasználói adatok nevű Parquet-adatkészletet fogunk használni.
  4. Adjon hozzá egy származtatott oszlop transzformációt. Ezzel a módszerrel dinamikusan állíthatja be a kívánt mappaneveket.
  5. Mosogató átalakítás hozzáadása.

Hierarchikus mappa kimenet

Nagyon gyakori, hogy az adatok egyedi értékeit használva mappahierarchiákat hoz létre az adatok particionálásához a tóban. Ez egy nagyon optimális módszer az adatok rendszerezésére és feldolgozására a tóban és a Sparkban (az adatfolyamok mögötti számítási motorban). A kimenet ilyen módon történő rendszerezésének azonban kisebb teljesítményköltsége lesz. Csővezeték teljesítményének összességében kis mértékű csökkenésére számíthat a kimeneten ezzel a mechanizmussal.

  1. Térjen vissza az adatfolyam-tervezőhöz, és szerkessze a fenti adatfolyam-létrehozást. Kattintson a csap átalakításra.
  2. Kattintson az Optimalizálás > Particionálási kulcs beállítása > elemre
  3. Válassza ki a hierarchikus mappastruktúra beállításához használni kívánt oszlop(ok)t.
  4. Az alábbi példában a mappaelnevezés oszlopai az év és a hónap nevet használják. Az eredmények az űrlap releaseyear=1990/month=8mappái lesznek.
  5. Amikor egy adatfolyam-forrás adatpartícióihoz fér hozzá, csak a fenti releaseyear legfelső szintű mappára mutat, és minden további mappához helyettesítő karaktermintát használ, például: **/**/*.parquet
  6. Ha módosítani szeretné az adatértékeket, vagy akár szintetikus értékeket is létre szeretne hozni a mappanevekhez, a Származtatott oszlop átalakításával hozza létre a mappanevekben használni kívánt értékeket.

Kulcsparticionálás

Névmappa adatértékként

Az ADLS Gen2-re épülő kimeneti technika, amely a lake data esetében valamivel jobban teljesít, de nem kínálja ugyanazokat az előnyöket, mint a kulcs-/értékparticionálás.Name folder as column data Míg a hierarchikus struktúra kulcsparticionálási stílusa lehetővé teszi az adatszeletek könnyebb feldolgozását, ez a technika egy lapított mappastruktúra, amely gyorsabban tud adatokat írni.

  1. Térjen vissza az adatfolyam-tervezőhöz, és szerkessze a fenti adatfolyam-létrehozást. Kattintson a csap átalakításra.
  2. Kattintson a Partíció optimalizálása > Partíciók beállítása > Jelenlegi partíció használata opcióra.
  3. Kattintson a Beállítások > Nevezze el a mappát oszlopadatokként.
  4. Válassza ki a mappanevek létrehozásához használni kívánt oszlopot.
  5. Ha módosítani szeretné az adatértékeket, vagy akár szintetikus értékeket is létre szeretne hozni a mappanevekhez, a Származtatott oszlop átalakításával hozza létre a mappanevekben használni kívánt értékeket.

Mappabeállítás

Névfájl adatértékként

A fenti oktatóanyagokban felsorolt technikák jól használhatók mappakategóriák létrehozására a data lake-ben. Az ilyen technikák által alkalmazott alapértelmezett fájlelnevezési séma a Spark-végrehajtói feladatazonosító használata. Előfordulhat, hogy a kimeneti fájl nevét egy adatfolyam szöveggyűjtőjében szeretné beállítani. Ez a technika csak kis fájlokhoz javasolt. A partíciófájlok egyetlen kimeneti fájlba való egyesítésének folyamata egy hosszú ideig futó folyamat.

  1. Térjen vissza az adatfolyam-tervezőhöz, és szerkessze a fenti adatfolyam-létrehozást. Kattintson a csap átalakításra.
  2. Kattintson az Optimalizálás > Particionálás beállítása > Egypartícióra elemre. Ez az egyetlen partíciókövetelmény szűk keresztmetszetet okoz a végrehajtási folyamatban a fájlok egyesítésekor. Ez a beállítás csak kis méretű fájlok esetén ajánlott.
  3. Kattintson a Beállítások > elemre, és nevezze el a fájlt oszlopadatok szerint.
  4. Válassza ki a fájlnevek létrehozásához használni kívánt oszlopot.
  5. Ha módosítani szeretné az adatértékeket, vagy akár szintetikus értékeket is létre szeretne hozni a fájlnevekhez, a Származtatott oszlop átalakításával hozza létre a fájlnevekben használni kívánt értékeket.

További információ az adatfolyam-fogadókról.