Új és módosított fájlok növekményes másolása a LastModifiedDate alapján az Adatok másolása eszközzel

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Ebben az oktatóanyagban a Azure portál használatával fog létrehozni egy adat-előállítót. Ezután az Adatok másolása eszközzel létrehoz egy folyamatot, amely csak az új és módosított fájlokat másolja növekményesen, Azure Blob Storage-ból Azure Blob Storage-ba. Ez LastModifiedDate alapján határozza meg, hogy mely fájlokat másolja.

Miután elvégezte az itt leírt lépéseket, Azure Data Factory a forrástárban lévő összes fájlt megvizsgálja, alkalmazza a fájlszűrőt LastModifiedDate szerint, és csak azokat a fájlokat másolja a céltárba, amelyek legutóbb újak vagy frissültek. Vegye figyelembe, hogy ha a Data Factory nagy mennyiségű fájlt vizsgál, akkor is hosszú időtartamokra kell számítania. A fájlvizsgálat időigényes, még akkor is, ha a másolt adatok mennyisége csökken.

Feljegyzés

Ha még nem ismerkedik a Data Factory szolgáltatásban, tekintse meg a Bevezetés a Azure Data Factory című témakört.

Ebben az oktatóanyagban a következő feladatokat fogja elvégezni:

  • Adat-előállító létrehozása
  • Adatcsővezeték létrehozása az Adatok másolása eszközzel.
  • A folyamat és a tevékenységek futásának monitorozása

Előfeltételek

  • Azure előfizetés: Ha nem rendelkezik Azure előfizetéssel, a kezdés előtt hozzon létre egy free fiókot.
  • Azure Storage fiók: Blob Storage használata a forrás- és fogadóadattárakhoz. Ha nem rendelkezik Azure Storage fiókkal, kövesse Tárfiók létrehozása című témakörben található utasításokat.

Két tároló létrehozása a Blob Storage-ban

Készítse elő a Blob Storage-t az oktatóanyaghoz az alábbi lépések végrehajtásával:

  1. Hozzon létre egy tároló nevesített forrást. A feladat végrehajtásához különböző eszközöket használhat, például Azure Storage Explorer.

  2. Hozzon létre egy destination nevű konténert.

Adat-előállító létrehozása

  1. A felső menüben válassza a Resource>Analytics>Data Factory létrehozása lehetőséget:

    Adat-előállító kiválasztása

  2. Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.

    Az adat-előállító nevének globálisan egyedinek kell lennie. A következő hibaüzenet jelenhet meg:

    Új Data Factory-hibaüzenet ismétlődő név esetén.

    Ha a név értékével kapcsolatos hibaüzenetet kap, írjon be másik nevet az adatgyárhoz. Például: sajátneveADFTutorialDataFactory. A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

  3. A Subscription területen válassza ki azt a Azure előfizetést, amelyben létre fogja hozni az új adat-előállítót.

  4. Az Erőforráscsoport területen hajtsa végre az alábbi lépések egyikét:

    • Válassza a Meglévő használata lehetőséget, majd válasszon ki egy meglévő erőforráscsoportot a listában.

    • Válassza az Új létrehozása lehetőséget, majd adja meg az erőforráscsoport nevét.

    Az erőforráscsoportokról a A Azure erőforráscsoportok kezelése című témakörben olvashat.

  5. A Verzió résznél válassza a V2 értéket.

  6. A Hely alatt válassza ki az adat-előállító helyét. Csak a támogatott helyek jelennek meg a listában. Az adat-előállító által használt adattárak (például Azure Storage és Azure SQL Database) és számításai (például Azure HDInsight) más helyeken és régiókban is lehetnek.

  7. Válassza a Létrehozás lehetőséget.

  8. Az adat-előállító létrehozása után megjelenik a data factory kezdőlapja.

  9. A Azure Data Factory felhasználói felület (UI) külön lapon való megnyitásához válassza a Open lehetőséget a Open Azure Data Factory Studio csempén:

    Az Azure Data Factory kezdőlapja, az Open Azure Data Factory Studio csempével.

Folyamat létrehozása az Adatok másolása eszközzel

  1. A Azure Data Factory kezdőlapon válassza a Ingest csempét az Adatok másolása eszköz megnyitásához:

    Képernyőkép az ADF kezdőlapjáról.

  2. A Tulajdonságok lapon hajtsa végre a következő lépéseket:

    1. A Tevékenység típusa csoportban válassza a Beépített másolási feladat lehetőséget.

    2. A Feladatütemezés csoportban válassza a Léptethető ablak lehetőséget.

    3. Az Ismétlődés csoportban adja meg a 15 perc(ek) értéket.

    4. Válassza a Tovább lehetőséget.

    Adattulajdonságok másolása lap

  3. A Forrásadattár lapon hajtsa végre az alábbi lépéseket:

    1. Válassza az + Új kapcsolat lehetőséget a kapcsolat hozzáadásához.

    2. Válassza Azure Blob Storage lehetőséget a gyűjteményből, majd válassza a Continue:

      Az Azure Blog Storage kiválasztása

    3. A New connection (Azure Blob Storage) lapon válassza ki Azure előfizetését a Azure előfizetés listából, valamint a tárfiókot a Storage fióknév listából. Tesztelje a kapcsolatot, majd válassza a Létrehozás lehetőséget.

    4. Válassza ki az újonnan létrehozott kapcsolatot a Kapcsolat blokkban.

    5. A Fájl vagy mappa szakaszban válassza a Tallózás lehetőséget, és válassza ki a forrásmappát, majd kattintson az OK gombra.

    6. A Fájlbetöltési viselkedés csoportban válassza a Növekményes terhelés: LastModifiedDate lehetőséget, és válassza a Bináris másolás lehetőséget.

    7. Válassza a Tovább lehetőséget.

    Képernyőkép a

  4. A Céladattár lapon hajtsa végre az alábbi lépéseket:

    1. Válassza ki a létrehozott AzureBlobStorage-kapcsolatot . Ez ugyanaz a tárfiók, mint a forrásadattár.

    2. A Mappa elérési útja szakaszban keresse meg és jelölje ki a célmappát, majd kattintson az OK gombra.

    3. Válassza a Tovább lehetőséget.

    Képernyőkép a

  5. A Beállítások lap Tevékenység neve területén adja meg a DeltaCopyFromBlobPipeline nevet, majd válassza a Tovább gombot. A Data Factory létrehoz egy folyamatot a megadott tevékenységnévvel.

    Képernyőkép a Beállítások lapról.

  6. Az Összefoglalás lapon tekintse át a beállításokat, majd válassza a Tovább gombot.

    Összefoglaló lap

  7. A folyamat (feladat) figyeléséhez az Üzembe helyezés lapon kattintson a Monitorozás elemre.

    Üzembe helyezés lap

  8. Figyelje meg, hogy a bal oldalon található Figyelés lap automatikusan ki lesz választva. Az alkalmazás a Figyelés lapra vált. Ekkor megjelenik a folyamat állapota. A lista frissítéséhez kattintson a Frissítés gombra. Válassza a folyamat neve alatti hivatkozást a tevékenységfuttatás részleteinek megtekintéséhez vagy a folyamat ismételt futtatásához.

    A lista frissítése és a tevékenységfuttatás részleteinek megtekintése

  9. A folyamatban csak egy tevékenység (másolási tevékenység) található, így csak egy bejegyzés jelenik meg. A másolási művelet részleteiért a Tevékenység futtatása lapon válassza a Részletek hivatkozást (a szemüveg ikont) a Tevékenységnév oszlopban. A tulajdonságokról további információt Copy tevékenység áttekintésében talál.

    Copy tevékenység a folyamatban

    Mivel a Blob Storage-fiókban nincsenek fájlok a forrástárolóban, a fiók céltárolójába másolt fájlok nem jelennek meg:

    Nincs fájl a forrástárolóban vagy a céltárolóban

  10. Hozzon létre egy üres szövegfájlt, és nevezze el file1.txt. Töltse fel ezt a szövegfájlt a tárfiók forrástárolójába. Különböző eszközökkel hajthatja végre ezeket a feladatokat, például Azure Storage Explorer.

    File1.txt létrehozása és feltöltése a forrástárolóba

  11. Ha vissza szeretne lépni a Folyamatfuttatások nézetre, válassza a Tevékenységfuttatások lap összes folyamatfuttatási hivatkozását, és várja meg, amíg ugyanaz a folyamat automatikusan aktiválódik.

  12. Amikor a második folyamatfuttatás befejeződik, kövesse a korábban említett lépéseket a tevékenységfuttatás részleteinek áttekintéséhez.

    Látni fogja, hogy egy fájl (file1.txt) lett átmásolva a forrástárolóból a Blob Storage-fiók céltárolójába:

    file1.txt át lett másolva a forrástárolóból a céltárolóba

  13. Hozzon létre egy másik üres szövegfájlt, és nevezze el file2.txt. Töltse fel ezt a szövegfájlt a Blob Storage-fiók forrástárolójába.

  14. Ismételje meg a második szövegfájl 11. és 12. lépését. Látni fogja, hogy csak az új fájl (file2.txt) lett átmásolva a forrástárolóból a tárfiók céltárolójába a folyamat futtatása során.

    Azt is ellenőrizheti, hogy csak egy fájl lett-e másolva a Azure Storage Explorer használatával a fájlok vizsgálatához:

    Fájlokat keresés az Azure Storage Explorer használatával

Az alábbi oktatóanyagból megtudhatja, hogyan alakíthat át adatokat Apache Spark-fürt használatával a Azure: