Megosztás a következőn keresztül:


Új és módosított fájlok növekményes másolása a LastModifiedDate alapján az Adatok másolása eszközzel

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ebben az oktatóanyagban az Azure Portal használatával fog létrehozni egy adat-előállítót. Ezután az Adatok másolása eszközzel létrehoz egy folyamatot, amely csak az új és módosított fájlokat másolja növekményesen az Azure Blob Storage-ból az Azure Blob Storage-ba. Ez határozza LastModifiedDate meg, hogy mely fájlokat másolja.

Az itt ismertetett lépések elvégzése után az Azure Data Factory megvizsgálja a forrástárban lévő összes fájlt, alkalmazza a fájlszűrőt LastModifiedDate, és csak azokat a fájlokat másolja a céltárolóba, amelyek legutóbb frissültek vagy újak. Vegye figyelembe, hogy ha a Data Factory nagy mennyiségű fájlt vizsgál, akkor is hosszú időtartamokra kell számítania. A fájlvizsgálat időigényes, még akkor is, ha a másolt adatok mennyisége csökken.

Feljegyzés

Ha még csak ismerkedik a Data Factory használatával, olvassa el az Azure Data Factory használatának első lépéseit ismertető cikket.

Ebben az oktatóanyagban a következő feladatokat fogja elvégezni:

  • Adat-előállító létrehozása
  • Folyamat létrehozása az Adatok másolása eszközzel.
  • A folyamat és a tevékenységek futásának monitorozása

Előfeltételek

  • Azure-előfizetés: Ha nem rendelkezik Azure-előfizetéssel, első lépésként mindössze néhány perc alatt létrehozhat egy ingyenes fiókot.
  • Azure Storage-fiók: Blob Storage használata a forrás- és fogadóadattárakhoz. Ha nem rendelkezik Azure Storage-fiókkal, kövesse a Tárfiók létrehozása című témakör utasításait.

Két tároló létrehozása a Blob Storage-ban

Készítse elő a Blob Storage-t az oktatóanyaghoz az alábbi lépések végrehajtásával:

  1. Hozzon létre egy tároló nevesített forrást. Ezt a feladatot különböző eszközökkel végezheti el, például az Azure Storage Explorert.

  2. Hozzon létre egy tároló nevesített célhelyet.

Adat-előállító létrehozása

  1. A bal oldali panelen válassza az Erőforrás létrehozása elemet. Válassza az Integration>Data Factoryt:

    Adat-előállító kiválasztása

  2. Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.

    Az adat-előállító nevének globálisan egyedinek kell lennie. A következő hibaüzenet jelenhet meg:

    Új Data Factory-hibaüzenet ismétlődő név esetén.

    Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. Például: sajátneveADFTutorialDataFactory. A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

  3. Az Előfizetés területen válassza ki azt az Azure-előfizetést, amelyben létre fogja hozni az új adat-előállítót.

  4. Az Erőforráscsoport területen hajtsa végre az alábbi lépések egyikét:

    • Válassza a Meglévő használata lehetőséget, majd válasszon ki egy meglévő erőforráscsoportot a listában.

    • Válassza az Új létrehozása lehetőséget, majd adja meg az erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.

  5. A Verzió résznél válassza a V2 értéket.

  6. A Hely alatt válassza ki az adat-előállító helyét. Csak a támogatott helyek jelennek meg a listában. Az adat-előállító által használt adattárak (például az Azure Storage és az Azure SQL Database) és a számítások (például az Azure HDInsight) más helyeken és régiókban is lehetnek.

  7. Válassza a Létrehozás lehetőséget.

  8. Az adat-előállító létrehozása után megjelenik a data factory kezdőlapja.

  9. Az Azure Data Factory felhasználói felületének (UI) külön lapon való megnyitásához válassza a Megnyitás lehetőséget az Azure Data Factory Studio megnyitása csempén:

    Az Azure Data Factory kezdőlapja az Open Azure Data Factory Studio csempével.

Folyamat létrehozása az Adatok másolása eszközzel

  1. Az Azure Data Factory kezdőlapján válassza az Ingest csempét az Adatok másolása eszköz megnyitásához:

    Képernyőkép az ADF kezdőlapjáról.

  2. A Tulajdonságok lapon hajtsa végre a következő lépéseket:

    1. A Tevékenység típusa csoportban válassza a Beépített másolási feladat lehetőséget.

    2. A Feladatütemezés vagy a Feladatütemezés csoportban válassza a Átfedés ablak lehetőséget.

    3. Az Ismétlődés csoportban adja meg a 15 perc(ek) értéket.

    4. Válassza a Tovább lehetőséget.

    Adattulajdonságok másolása lap

  3. A Forrásadattár lapon hajtsa végre az alábbi lépéseket:

    1. Válassza az + Új kapcsolat lehetőséget a kapcsolat hozzáadásához.

    2. Válassza az Azure Blob Storage lehetőséget a katalógusból, majd válassza a Folytatás lehetőséget:

      Az Azure Blog Storage kiválasztása

    3. Az Új kapcsolat (Azure Blob Storage) lapon válassza ki az Azure-előfizetését az Azure-előfizetések listájából, a tárfiókot pedig a Tárfiók névlistájából. Tesztelje a kapcsolatot, majd válassza a Létrehozás lehetőséget.

    4. Válassza ki az újonnan létrehozott kapcsolatot a Kapcsolat blokkban.

    5. A Fájl vagy mappa szakaszban válassza a Tallózás lehetőséget, és válassza ki a forrásmappát, majd kattintson az OK gombra.

    6. A Fájlbetöltési viselkedés csoportban válassza a Növekményes terhelés: LastModifiedDate lehetőséget, és válassza a Bináris másolás lehetőséget.

    7. Válassza a Tovább lehetőséget.

    Képernyőkép a

  4. A Céladattár lapon hajtsa végre az alábbi lépéseket:

    1. Válassza ki a létrehozott AzureBlobStorage-kapcsolatot . Ez ugyanaz a tárfiók, mint a forrásadattár.

    2. A Mappa elérési útja szakaszban keresse meg és jelölje ki a célmappát, majd kattintson az OK gombra.

    3. Válassza a Tovább lehetőséget.

    Képernyőkép a

  5. A Beállítások lap Tevékenység neve területén adja meg a DeltaCopyFromBlobPipeline nevet, majd válassza a Tovább gombot. A Data Factory létrehoz egy folyamatot a megadott tevékenységnévvel.

    Képernyőkép a Beállítások lapról.

  6. Az Összefoglalás lapon tekintse át a beállításokat, majd válassza a Tovább gombot.

    Összefoglaló lap

  7. A folyamat (feladat) figyeléséhez az Üzembe helyezés lapon kattintson a Monitorozás elemre.

    Üzembe helyezés lap

  8. Figyelje meg, hogy a bal oldalon található Figyelés lap automatikusan ki lesz választva. Az alkalmazás a Figyelés lapra vált. Ekkor megjelenik a folyamat állapota. A lista frissítéséhez kattintson a Frissítés gombra. Válassza a folyamat neve alatti hivatkozást a tevékenységfuttatás részleteinek megtekintéséhez vagy a folyamat ismételt futtatásához.

    A lista frissítése és a tevékenységfuttatás részleteinek megtekintése

  9. A folyamatban csak egy tevékenység (másolási tevékenység) található, így csak egy bejegyzés jelenik meg. A másolási művelet részleteiért a Tevékenység futtatása lapon válassza a Részletek hivatkozást (a szemüveg ikont) a Tevékenységnév oszlopban. A tulajdonságokról további információt Copy tevékenység áttekintésében talál.

    Copy tevékenység a folyamatban

    Mivel a Blob Storage-fiókban nincsenek fájlok a forrástárolóban, a fiók céltárolójába másolt fájlok nem jelennek meg:

    Nincs fájl a forrástárolóban vagy a céltárolóban

  10. Hozzon létre egy üres szövegfájlt, és nevezze el file1.txt. Töltse fel ezt a szövegfájlt a tárfiók forrástárolójába. Ezeket a feladatokat különböző eszközökkel végezheti el, például az Azure Storage Explorert.

    File1.txt létrehozása és feltöltése a forrástárolóba

  11. Ha vissza szeretne lépni a Folyamatfuttatások nézetre, válassza a Tevékenységfuttatások lap összes folyamatfuttatási hivatkozását, és várja meg, amíg ugyanaz a folyamat automatikusan aktiválódik.

  12. Amikor a második folyamatfuttatás befejeződik, kövesse a korábban említett lépéseket a tevékenységfuttatás részleteinek áttekintéséhez.

    Látni fogja, hogy egy fájl (file1.txt) lett átmásolva a forrástárolóból a Blob Storage-fiók céltárolójába:

    file1.txt át lett másolva a forrástárolóból a céltárolóba

  13. Hozzon létre egy másik üres szövegfájlt, és nevezze el file2.txt. Töltse fel ezt a szövegfájlt a Blob Storage-fiók forrástárolójába.

  14. Ismételje meg a második szövegfájl 11. és 12. lépését. Látni fogja, hogy csak az új fájl (file2.txt) lett átmásolva a forrástárolóból a tárfiók céltárolójába a folyamat futtatása során.

    Azt is ellenőrizheti, hogy csak egy fájl lett-e másolva az Azure Storage Explorerrel a fájlok vizsgálatához:

    Fájlok vizsgálata az Azure Storage Explorerrel

Az alábbi oktatóanyagból megtudhatja, hogyan alakíthat át adatokat Apache Spark-fürt használatával az Azure-ban: