Incrementeel laden van gegevens van een brongegevensarchief naar een doelgegevensarchief

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In een oplossing voor gegevensintegratie is incrementeel (of delta) laden van gegevens na een eerste volledige laadhandeling een veelgebruikt scenario. De zelfstudies in deze sectie tonen u de verschillende manieren van het incrementeel laden van gegevens met behulp van Azure Data Factory.

Delta-gegevens laden uit de database met behulp van een watermerk

In dit geval definieert u een watermerk in de brondatabase. Een watermerk is een kolom die het laatst bijgewerkte tijdstempel of een ophogende sleutel heeft. Bij delta-laden worden de gewijzigde gegevens tussen een oud watermerk en een nieuw watermerk geladen. De werkstroom voor deze benadering wordt verduidelijkt in het volgende diagram:

Workflow for using a watermark

Zie de volgende zelfstudies voor stapsgewijze instructies:

Zie voor sjablonen het volgende:

Delta-gegevens laden uit SQL DB met behulp van de technologie voor wijzigingen bijhouden

Technologie voor het bijhouden van wijzigingen is een lichtgewicht oplossing in SQL Server en Azure SQL Database waarmee een efficiënt mechanisme wordt geboden voor het bijhouden van wijzigingen in toepassingen. Hiermee kan een toepassing eenvoudig gegevens herkennen die zijn toegevoegd, bijgewerkt of verwijderd.

De werkstroom voor deze benadering wordt verduidelijkt in het volgende diagram:

Workflow for using Change Tracking

Zie de volgende zelfstudie voor stapsgewijze instructies:

Alleen nieuwe en gewijzigde bestanden laden met behulp van LastModifiedDate

U kunt de nieuwe en gewijzigde bestanden alleen kopiëren met behulp van LastModifiedDate naar het doelarchief. ADF scant alle bestanden in het bronarchief, past het bestandsfilter toe op de LastModifiedDate en kopieert alleen het nieuwe en bijgewerkte bestand sinds de laatste keer naar het doelarchief. Houd er rekening mee dat als u ADF enorme hoeveelheden bestanden laat scannen, maar u slechts een paar bestanden naar de bestemming kopieert, dit nog steeds lang duurt vanwege het scannen van bestanden.

Zie de volgende zelfstudie voor stapsgewijze instructies:

Zie voor sjablonen het volgende:

Alleen nieuwe bestanden laden met behulp van de op tijdsbasis gepartitioneerde map- of bestandsnaam.

U kunt alleen nieuwe bestanden kopiëren als bestanden of mappen al op basis van tijd zijn gepartitioneerd met tijdsdeelinformatie die onderdeel is van de bestands- of mapnaam (bijvoorbeeld /yyyy/mm/dd/file.csv). Het is de meest krachtige aanpak voor het incrementeel laden van nieuwe bestanden.

Zie de volgende zelfstudie voor stapsgewijze instructies:

Ga naar de volgende zelfstudie: