Új fájlok növekményes másolása az időparticionált fájlnév alapján az Adatok másolása eszközzel
A következőkre vonatkozik: Azure Data Factory
Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ebben az oktatóanyagban egy adat-előállítót hoz létre az Azure Portal használatával. Ezután az Adatok másolása eszközzel létrehoz egy folyamatot, amely növekményesen másolja az új fájlokat az Idő particionált fájlnév alapján az Azure Blob Storage-ból az Azure Blob Storage-ba.
Feljegyzés
Ha még csak ismerkedik az Azure Data Factory használatával, olvassa el az Azure Data Factory használatának első lépéseit ismertető cikket.
Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:
- Adat-előállító létrehozása
- Folyamat létrehozása az Adatok másolása eszközzel.
- A folyamat és a tevékenységek futásának monitorozása
Előfeltételek
- Azure-előfizetés: Ha nem rendelkezik Azure-előfizetéssel, első lépésként mindössze néhány perc alatt létrehozhat egy ingyenes fiókot.
- Azure Storage-fiók: A Blob Storage használata forrás- és fogadóadattárként. Ha még nem rendelkezik Azure Storage-fiókkal, a szükséges utasításokat a Storage-fiók létrehozását ismertető cikkben találja.
Két tároló létrehozása a Blob Storage-ban
Az alábbi lépések végrehajtásával készítse elő a Blob Storage-t az oktatóanyaghoz.
Hozzon létre egy tároló nevesített forrást. Hozzon létre egy mappa elérési útját 2021.07.15.06-ra a tárolóban. Hozzon létre egy üres szövegfájlt, és nevezze el file1.txt. Töltse fel a file1.txt a tárfiókban található mappa elérési útjának forrására/2021/07/15/06 . Ennek elvégzéséhez különböző eszközök állnak rendelkezésére, például az Azure Storage Explorer.
Feljegyzés
Módosítsa a mappa nevét az UTC idő szerint. Ha például az aktuális UTC-idő 2021. július 15-én 6:10 óra, akkor a forrás/{Year}/{Month}/{Day}/{Hour}/ szabálya alapján létrehozhatja a mappa elérési útját forrásként/2021/07/15/06/.
Hozzon létre egy tároló nevesített célhelyet. Ennek elvégzéséhez különböző eszközök állnak rendelkezésére, például az Azure Storage Explorer.
Adat-előállító létrehozása
A bal oldali menüben válassza az Erőforrás-integrációs>>adat-előállító létrehozása lehetőséget:
Az Új adat-előállító lap Név mezőjében adja meg az ADFTutorialDataFactory értéket.
Az adat-előállító nevének globálisan egyedinek kell lennie. A következő hibaüzenet jelenhet meg:
Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. Például: sajátneveADFTutorialDataFactory. A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.
Válassza ki az Azure-előfizetést az új adat-előállító létrehozásához.
Erőforráscsoport: hajtsa végre a következő lépések egyikét:
a. Kattintson a Meglévő használata elemre, majd a legördülő listából válasszon egy meglévő erőforráscsoportot.
b. Kattintson az Új létrehozása elemre, és adja meg az erőforráscsoport nevét.
Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.
A Verzió résznél válassza a V2 értéket.
A Hely alatt válassza ki az adat-előállító helyét. A legördülő listában csak a támogatott helyek jelennek meg. Az adat-előállítók által használt adattárak (például Azure Storage és SQL Database) és számítási erőforrások (például Azure HDInsight) más helyeken/régiókban is lehetnek.
Válassza a Létrehozás lehetőséget.
A létrehozás befejezése után a Data Factory kezdőlapja jelenik meg.
Az Azure Data Factory felhasználói felületének (UI) külön lapon való elindításához válassza a Megnyitás az Azure Data Factory Studio megnyitása csempén lehetőséget.
Folyamat létrehozása az Adatok másolása eszközzel
Az Azure Data Factory kezdőlapján válassza a Betöltés címet az Adatok másolása eszköz elindításához.
A Tulajdonságok lapon hajtsa végre a következő lépéseket:
A Feladat típusa csoportban válassza a Beépített másolási feladat lehetőséget.
A Feladatütemezés vagy a Feladatütemezés csoportban válassza a Átfedés ablak lehetőséget.
Az Ismétlődés csoportban adja meg az 1 óra(ok) értéket.
Válassza a Tovább lehetőséget.
A Forrásadattár oldalon hajtsa végre az alábbi lépéseket:
a. Válassza az + Új kapcsolat lehetőséget a kapcsolat hozzáadásához.
b. Válassza az Azure Blob Storage lehetőséget a katalógusból, majd válassza a Folytatás lehetőséget.
c. Az Új kapcsolat (Azure Blob Storage) lapon adja meg a kapcsolat nevét. Válassza ki az Azure-előfizetését, és válassza ki a tárfiókot a Tárfiók névlistájából . Tesztelje a kapcsolatot, majd válassza a Létrehozás lehetőséget.
d. A Forrásadattár lapon válassza ki az újonnan létrehozott kapcsolatot a Kapcsolat szakaszban.
e. A Fájl vagy mappa szakaszban tallózással jelölje ki a forrástárolót, majd kattintson az OK gombra.
f. A Fájlbetöltési viselkedés csoportban válassza a Növekményes betöltést: időparticionált mappa/fájlnevek.
: Írja meg a dinamikus mappa elérési útját forrásként /{year}/{month}/{day}/{hour}/, és módosítsa a formátumot az alábbi képernyőképen látható módon.
h. Ellenőrizze a bináris másolást, és válassza a Tovább gombot.
A Céladattár lapon hajtsa végre a következő lépéseket:
Válassza ki az AzureBlobStorage-t, amely ugyanaz a tárfiók, mint az adatforrás-tároló.
Tallózással válassza ki a célmappát, majd kattintson az OK gombra.
Írja be a dinamikus mappa elérési útját célként/{év}/{hónap}/{nap}/{óra}/, és módosítsa a formátumot az alábbi képernyőképen látható módon.
Válassza a Tovább lehetőséget.
A Beállítások lap Tevékenység neve területén adja meg a DeltaCopyFromBlobPipeline nevet, majd válassza a Tovább gombot. A Data Factory felhasználói felülete létrehoz egy folyamatot a megadott feladatnéven.
Az Összefoglalás lapon tekintse át a beállításokat, majd kattintson a Tovább gombra.
A folyamat (feladat) figyeléséhez az Üzembe helyezés lapon kattintson a Monitorozás elemre.
Figyelje meg, hogy a bal oldalon található Figyelés lap automatikusan ki lesz választva. Várnia kell, amíg a folyamat automatikusan aktiválódik (körülbelül egy óra múlva). Amikor fut, válassza ki a DeltaCopyFromBlobPipeline folyamatnév-hivatkozást a tevékenységfuttatás részleteinek megtekintéséhez vagy a folyamat újrafuttatásához. A lista frissítéséhez kattintson a Frissítés gombra.
Csak egy (másolási) tevékenység található a folyamatban, ezért csak egy bejegyzést lát. Módosítsa a Forrás és a Cél oszlop szélességét (ha szükséges), hogy további részleteket jelenítsen meg, láthatja, hogy a forrásfájl (file1.txt) át lett másolva a forrás/2021/07/15/06/ forrásból a cél/2021/07/15/06/ helyre ugyanazzal a fájlnévvel.
Ugyanezt az Azure Storage Explorer (https://storageexplorer.com/) használatával is ellenőrizheti a fájlok vizsgálatához.
Hozzon létre egy másik üres szövegfájlt az új névvel file2.txt. Töltse fel a file2.txt fájlt a tárfiókban található mappa elérési útjának forrására/2021/07/15/07 . Ennek elvégzéséhez különböző eszközök állnak rendelkezésére, például az Azure Storage Explorer.
Feljegyzés
Lehet, hogy tisztában van azzal, hogy létre kell hoznia egy új mappa elérési útját. Módosítsa a mappa nevét az UTC idő szerint. Ha például az aktuális UTC-idő július 7:30. 2021. 15. 07-én létrehozhatja a mappa elérési útját forrásként /2021.07.15./ a következő szabály szerint: {Year}/{Month}/{Day}/{Hour}/.
Ha vissza szeretne lépni a Folyamatfuttatások nézetre, válassza az Összes folyamat futtatása lehetőséget, és várja meg, amíg ugyanaz a folyamat automatikusan aktiválódik egy óra múlva.
Válassza ki a második folyamatfuttatáshoz tartozó új DeltaCopyFromBlobPipeline hivatkozást, és végezze el ugyanezt a részletek áttekintéséhez. Látni fogja, hogy a forrásfájl (file2.txt) a forrás/2021/07/15/07/07/-ról a cél/2021/07/15/07/ helyre lett másolva ugyanazzal a fájlnévvel. Ugyanezt az Azure Storage Explorer (https://storageexplorer.com/) használatával is ellenőrizheti a céltárolóban lévő fájlok vizsgálatához.
Kapcsolódó tartalom
Folytassa a következő oktatóanyaggal, amelyben az adatok Azure Spark-fürtök használatával való átalakítását ismerheti meg:
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: