Új és módosított fájlok növekményes másolása a LastModifiedDate alapján az Adatok másolása eszközzel
A következőkre vonatkozik: Azure Data Factory
Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ebben az oktatóanyagban az Azure Portal használatával fog létrehozni egy adat-előállítót. Ezután az Adatok másolása eszközzel létrehoz egy folyamatot, amely csak az új és módosított fájlokat másolja növekményesen az Azure Blob Storage-ból az Azure Blob Storage-ba. Ez határozza LastModifiedDate
meg, hogy mely fájlokat másolja.
Az itt ismertetett lépések elvégzése után az Azure Data Factory megvizsgálja a forrástárban lévő összes fájlt, alkalmazza a fájlszűrőt LastModifiedDate
, és csak azokat a fájlokat másolja a céltárolóba, amelyek legutóbb frissültek vagy újak. Vegye figyelembe, hogy ha a Data Factory nagy mennyiségű fájlt vizsgál, akkor is hosszú időtartamokra kell számítania. A fájlvizsgálat időigényes, még akkor is, ha a másolt adatok mennyisége csökken.
Feljegyzés
Ha még csak ismerkedik a Data Factory használatával, olvassa el az Azure Data Factory használatának első lépéseit ismertető cikket.
Ebben az oktatóanyagban a következő feladatokat fogja elvégezni:
- Adat-előállító létrehozása
- Folyamat létrehozása az Adatok másolása eszközzel.
- A folyamat és a tevékenységek futásának monitorozása
Előfeltételek
- Azure-előfizetés: Ha nem rendelkezik Azure-előfizetéssel, első lépésként mindössze néhány perc alatt létrehozhat egy ingyenes fiókot.
- Azure Storage-fiók: Blob Storage használata a forrás- és fogadóadattárakhoz. Ha nem rendelkezik Azure Storage-fiókkal, kövesse a Tárfiók létrehozása című témakör utasításait.
Két tároló létrehozása a Blob Storage-ban
Készítse elő a Blob Storage-t az oktatóanyaghoz az alábbi lépések végrehajtásával:
Hozzon létre egy tároló nevesített forrást. Ezt a feladatot különböző eszközökkel végezheti el, például az Azure Storage Explorert.
Hozzon létre egy tároló nevesített célhelyet.
Adat-előállító létrehozása
A bal oldali panelen válassza az Erőforrás létrehozása elemet. Válassza az Integration>Data Factoryt:
Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.
Az adat-előállító nevének globálisan egyedinek kell lennie. A következő hibaüzenet jelenhet meg:
Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. Például: sajátneveADFTutorialDataFactory. A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.
Az Előfizetés területen válassza ki azt az Azure-előfizetést, amelyben létre fogja hozni az új adat-előállítót.
Az Erőforráscsoport területen hajtsa végre az alábbi lépések egyikét:
Válassza a Meglévő használata lehetőséget, majd válasszon ki egy meglévő erőforráscsoportot a listában.
Válassza az Új létrehozása lehetőséget, majd adja meg az erőforráscsoport nevét.
Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.
A Verzió résznél válassza a V2 értéket.
A Hely alatt válassza ki az adat-előállító helyét. Csak a támogatott helyek jelennek meg a listában. Az adat-előállító által használt adattárak (például az Azure Storage és az Azure SQL Database) és a számítások (például az Azure HDInsight) más helyeken és régiókban is lehetnek.
Válassza a Létrehozás lehetőséget.
Az adat-előállító létrehozása után megjelenik a data factory kezdőlapja.
Az Azure Data Factory felhasználói felületének (UI) külön lapon való megnyitásához válassza a Megnyitás lehetőséget az Azure Data Factory Studio megnyitása csempén:
Folyamat létrehozása az Adatok másolása eszközzel
Az Azure Data Factory kezdőlapján válassza az Ingest csempét az Adatok másolása eszköz megnyitásához:
A Tulajdonságok lapon hajtsa végre a következő lépéseket:
A Tevékenység típusa csoportban válassza a Beépített másolási feladat lehetőséget.
A Feladatütemezés vagy a Feladatütemezés csoportban válassza a Átfedés ablak lehetőséget.
Az Ismétlődés csoportban adja meg a 15 perc(ek) értéket.
Válassza a Tovább lehetőséget.
A Forrásadattár lapon hajtsa végre az alábbi lépéseket:
Válassza az + Új kapcsolat lehetőséget a kapcsolat hozzáadásához.
Válassza az Azure Blob Storage lehetőséget a katalógusból, majd válassza a Folytatás lehetőséget:
Az Új kapcsolat (Azure Blob Storage) lapon válassza ki az Azure-előfizetését az Azure-előfizetések listájából, a tárfiókot pedig a Tárfiók névlistájából. Tesztelje a kapcsolatot, majd válassza a Létrehozás lehetőséget.
Válassza ki az újonnan létrehozott kapcsolatot a Kapcsolat blokkban.
A Fájl vagy mappa szakaszban válassza a Tallózás lehetőséget, és válassza ki a forrásmappát, majd kattintson az OK gombra.
A Fájlbetöltési viselkedés csoportban válassza a Növekményes terhelés: LastModifiedDate lehetőséget, és válassza a Bináris másolás lehetőséget.
Válassza a Tovább lehetőséget.
A Céladattár lapon hajtsa végre az alábbi lépéseket:
Válassza ki a létrehozott AzureBlobStorage-kapcsolatot . Ez ugyanaz a tárfiók, mint a forrásadattár.
A Mappa elérési útja szakaszban keresse meg és jelölje ki a célmappát, majd kattintson az OK gombra.
Válassza a Tovább lehetőséget.
A Beállítások lap Tevékenység neve területén adja meg a DeltaCopyFromBlobPipeline nevet, majd válassza a Tovább gombot. A Data Factory létrehoz egy folyamatot a megadott tevékenységnévvel.
Az Összefoglalás lapon tekintse át a beállításokat, majd válassza a Tovább gombot.
A folyamat (feladat) figyeléséhez az Üzembe helyezés lapon kattintson a Monitorozás elemre.
Figyelje meg, hogy a bal oldalon található Figyelés lap automatikusan ki lesz választva. Az alkalmazás a Figyelés lapra vált. Ekkor megjelenik a folyamat állapota. A lista frissítéséhez kattintson a Frissítés gombra. Válassza a folyamat neve alatti hivatkozást a tevékenységfuttatás részleteinek megtekintéséhez vagy a folyamat ismételt futtatásához.
A folyamatban csak egy tevékenység (másolási tevékenység) található, így csak egy bejegyzés jelenik meg. A másolási művelet részleteiért a Tevékenység futtatása lapon válassza a Részletek hivatkozást (a szemüveg ikont) a Tevékenységnév oszlopban. A tulajdonságokról további információt Copy tevékenység áttekintésében talál.
Mivel a Blob Storage-fiókban nincsenek fájlok a forrástárolóban, a fiók céltárolójába másolt fájlok nem jelennek meg:
Hozzon létre egy üres szövegfájlt, és nevezze el file1.txt. Töltse fel ezt a szövegfájlt a tárfiók forrástárolójába. Ezeket a feladatokat különböző eszközökkel végezheti el, például az Azure Storage Explorert.
Ha vissza szeretne lépni a Folyamatfuttatások nézetre, válassza a Tevékenységfuttatások lap összes folyamatfuttatási hivatkozását, és várja meg, amíg ugyanaz a folyamat automatikusan aktiválódik.
Amikor a második folyamatfuttatás befejeződik, kövesse a korábban említett lépéseket a tevékenységfuttatás részleteinek áttekintéséhez.
Látni fogja, hogy egy fájl (file1.txt) lett átmásolva a forrástárolóból a Blob Storage-fiók céltárolójába:
Hozzon létre egy másik üres szövegfájlt, és nevezze el file2.txt. Töltse fel ezt a szövegfájlt a Blob Storage-fiók forrástárolójába.
Ismételje meg a második szövegfájl 11. és 12. lépését. Látni fogja, hogy csak az új fájl (file2.txt) lett átmásolva a forrástárolóból a tárfiók céltárolójába a folyamat futtatása során.
Azt is ellenőrizheti, hogy csak egy fájl lett-e másolva az Azure Storage Explorerrel a fájlok vizsgálatához:
Kapcsolódó tartalom
Az alábbi oktatóanyagból megtudhatja, hogyan alakíthat át adatokat Apache Spark-fürt használatával az Azure-ban:
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: