Incrementeel nieuwe bestanden kopiëren op basis van de gepartitioneerde bestandsnaam met behulp van het hulpprogramma Gegevens kopiëren
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
In deze zelfstudie gebruikt u Azure Portal om een gegevensfactory te maken. Vervolgens gebruikt u het hulpprogramma Copy Data om een pijplijn te maken waarmee incrementeel nieuwe bestanden worden gekopieerd op basis van de tijdpartitioneerde bestandsnaam van Azure Blob Storage naar Azure Blob Storage.
Notitie
Zie Inleiding tot Azure Data Factory als u niet bekend bent met Azure Data Factory.
In deze zelfstudie voert u de volgende stappen uit:
- Een data factory maken.
- Het hulpprogramma Copy Data gebruiken om een pijplijn te maken.
- De uitvoering van de pijplijn en van de activiteit controleren.
Vereisten
- Azure-abonnement: als u nog geen abonnement op Azure hebt, maakt u een gratis Azure-account aan voordat u begint.
- Azure Storage-account: Blob Storage gebruiken als bron- en sinkgegevensarchief. Als u geen Azure-opslagaccount hebt, raadpleegt u de instructies in Een opslagaccount maken.
Twee containers maken in Blob Storage
Bereid uw Blob Storage voor voor de zelfstudie door deze stappen uit te voeren.
Maak een container met de naam bron. Maak een mappad als 2021/07/15/06 in uw container. Maak een leeg tekstbestand en geef het een naam als file1.txt. Upload de file1.txt naar de mappadbron /2021/07/15/06 in uw opslagaccount. U kunt verschillende hulpprogramma's gebruiken om deze taken uit te voeren, zoals Azure Storage Explorer.
Notitie
Pas de mapnaam aan met de UTC-tijd. Als de huidige UTC-tijd bijvoorbeeld 6:10 uur is op 15 juli 2021, kunt u het mappad maken als bron/2021/07/15/06/ door de regel van bron/{Year}/{Month}/{Day}/{Hour}/.
Maak een container met de naam bestemming. U kunt verschillende hulpprogramma's gebruiken om deze taken uit te voeren, zoals Azure Storage Explorer.
Een data factory maken
Selecteer in het linkermenu Een resource maken>Integratie>Data Factory:
Voer op de pagina Nieuwe data factoryADFTutorialDataFactory in bij Naam.
De naam van de data factory moet wereldwijd uniek zijn. Mogelijk wordt het volgende foutbericht weergegeven:
Als u een foutbericht ontvangt dat betrekking heeft op de waarde die bij de naam is ingevuld, voert u een andere naam in voor de data factory. Gebruik bijvoorbeeld de naam uwnaamADFTutorialDataFactory. Raadpleeg het onderwerp Data Factory - Naamgevingsregels voor meer informatie over naamgevingsregels voor Data Factory-artefacten.
Selecteer het Azure-abonnement waarin u de nieuwe data factory wilt maken.
Voer een van de volgende stappen uit voor Resourcegroep:
a. Selecteer Bestaande gebruiken en selecteer een bestaande resourcegroep in de vervolgkeuzelijst.
b. Selecteer Nieuwe maken en voer de naam van een resourcegroep in.
Zie Resourcegroepen gebruiken om Azure-resources te beheren voor meer informatie.
Selecteer bij Versie de optie V2 als de versie.
Selecteer bij Locatie de locatie voor de data factory. In de vervolgkeuzelijst worden alleen ondersteunde locaties weergegeven. De gegevensarchieven (bijvoorbeeld Azure Storage en SQL Database) en -berekeningen (bijvoorbeeld Azure HDInsight) die door uw data factory worden gebruikt, kunnen zich in andere locaties of regio's bevinden.
Selecteer Maken.
Nadat de data factory is gemaakt, wordt de startpagina Data Factory weergegeven.
Als u de gebruikersinterface (UI) van Azure Data Factory op een afzonderlijk tabblad wilt starten, selecteert u Openen op de tegel Azure Data Factory Studio openen.
Het hulpprogramma Copy Data gebruiken om een pijplijn te maken
Selecteer op de startpagina van Azure Data Factory de titel Opnemen om het hulpprogramma Copy Data te starten.
Voer op de pagina Eigenschappen de volgende stappen uit:
Kies onder Taaktype de optie Ingebouwde kopieertaak.
Selecteer onder Taakfrequentie of taakplanning het Tumblingvenster.
Voer onder Terugkeerpatroon 1 uur(en) in.
Selecteer Volgende.
Voltooi op de pagina Brongegevensarchief de volgende stappen:
a. Selecteer + Nieuwe verbinding om een verbinding toe te voegen.
b. Selecteer in de galerie de optie Azure Blob Storage. Selecteer vervolgens Doorgaan.
c. Voer op de pagina Nieuwe verbinding (Azure Blob Storage) een naam in voor de verbinding. Selecteer uw Azure-abonnement en selecteer uw opslagaccount in de lijst met opslagaccountnamen . Test de verbinding en selecteer vervolgens Maken.
d. Selecteer op de pagina Brongegevensarchief de zojuist gemaakte verbinding in de sectie Verbinding .
e. Blader en selecteer in de sectie Bestand of map de broncontainer en selecteer vervolgens OK.
f. Selecteer onder Gedrag van bestand laden incrementeel laden: gepartitioneerde map/bestandsnamen.
g. Schrijf het pad naar de dynamische map als bron/{year}/{month}/{day}/{hour}/, en wijzig de indeling zoals wordt weergegeven in de volgende schermopname.
h. Controleer binaire kopie en selecteer Volgende.
Voer op de pagina Doelgegevensarchief de volgende stappen uit:
Selecteer de AzureBlobStorage. Dit is hetzelfde opslagaccount als het gegevensbronarchief.
Blader en selecteer de doelmap en selecteer vervolgens OK.
Schrijf het pad naar de dynamische map als bestemming/{year}/{month}/{day}/{hour}/, en wijzig de indeling zoals wordt weergegeven in de volgende schermopname.
Selecteer Volgende.
Voer op de pagina Instellingen, onder Taaknaam, DeltaCopyFromBlobPipeline in en selecteer vervolgens Volgende. De gebruikersinterface van Data Factory maakt een pijplijn met de opgegeven taaknaam.
Bekijk op de Overzichtspagina de waarden voor alle instellingen en selecteer vervolgens Volgende.
Selecteer op de pagina Implementatie de optie Controleren om de pijplijn of taak te controleren.
U ziet dat het tabblad Controleren aan de linkerkant automatisch wordt geselecteerd. U moet wachten op de uitvoering van de pijplijn wanneer deze automatisch wordt geactiveerd (ongeveer na één uur). Wanneer deze wordt uitgevoerd, selecteert u de pijplijnnaamkoppeling DeltaCopyFromBlobPipeline om details van de activiteitsuitvoering weer te geven of de pijplijn opnieuw uit te voeren. Selecteer Vernieuwen om de lijst te vernieuwen.
Omdat er slechts één activiteit (kopieeractiviteit) in de pijplijn is, ziet u slechts één vermelding in de lijst. Pas de kolombreedte van de kolommen Bron en Doel (indien nodig) aan om meer details weer te geven. U kunt zien dat het bronbestand (file1.txt) is gekopieerd van bron/2021/07/15/06/ naar bestemming/2021/07/15/06/ met dezelfde bestandsnaam.
U kunt dit ook controleren met behulp van Azure Storage Explorer (https://storageexplorer.com/) om de bestanden te scannen.
Maak nog een leeg tekstbestand met de nieuwe naam als file2.txt. Upload het file2.txt bestand naar de mappadbron /2021/07/15/07 in uw opslagaccount. U kunt verschillende hulpprogramma's gebruiken om deze taken uit te voeren, zoals Azure Storage Explorer.
Notitie
U weet misschien dat er een nieuw mappad moet worden gemaakt. Pas de mapnaam aan met de UTC-tijd. Als de huidige UTC-tijd bijvoorbeeld 7:30 uur is op juli. 15th, 2021, kunt u het mappad maken als bron/2021/07/15/07/ volgens de regel van {Year}/{Month}/{Day}/{Hour}/.
Als u wilt teruggaan naar de weergave Pijplijnuitvoeringen, selecteert u Alle pijplijnen en wacht u tot dezelfde pijplijn na een ander uur opnieuw wordt geactiveerd.
Selecteer de nieuwe DeltaCopyFromBlobPipeline-koppeling voor de tweede pijplijnuitvoering wanneer deze wordt uitgevoerd en doe hetzelfde om de details te bekijken. U ziet dat het bronbestand (file2.txt) is gekopieerd van bron/2021/07/15/07/ naar bestemming/2021/07/15/07/ met dezelfde bestandsnaam. U kunt dit ook controleren met behulp van Azure Storage Explorer (https://storageexplorer.com/) om de bestanden in de doelcontainer te scannen.
Gerelateerde inhoud
Ga naar de volgende zelfstudie voor meer informatie over het transformeren van gegevens met behulp van een Spark-cluster in Azure: