Share via


Nieuwe en gewijzigde bestanden kopiëren door LastModifiedDate met Azure Data Factory

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In dit artikel wordt een oplossingssjabloon beschreven die u kunt gebruiken om nieuwe en gewijzigde bestanden alleen te kopiëren door LastModifiedDate van een archief op basis van bestanden naar een doelarchief.

Over deze oplossingssjabloon

Met deze sjabloon selecteert u eerst de nieuwe en gewijzigde bestanden alleen op basis van hun kenmerken LastModifiedDate en kopieert u deze geselecteerde bestanden uit het gegevensbronarchief naar het gegevensbestemmingsarchief.

De sjabloon bevat één activiteit:

  • Kopiëren om nieuwe en gewijzigde bestanden alleen door LastModifiedDate van een bestandsarchief naar een doelarchief te kopiëren.

De sjabloon definieert zes parameters:

  • FolderPath_Source is het mappad waar u de bestanden uit het bronarchief kunt lezen. U moet de standaardwaarde vervangen door uw eigen mappad.
  • Directory_Source is het pad naar de submap waar u de bestanden uit het bronarchief kunt lezen. U moet de standaardwaarde vervangen door uw eigen submappad.
  • FolderPath_Destination is het mappad waar u bestanden naar het doelarchief wilt kopiëren. U moet de standaardwaarde vervangen door uw eigen mappad.
  • Directory_Destination is het pad naar de submap waar u bestanden naar het doelarchief wilt kopiëren. U moet de standaardwaarde vervangen door uw eigen submappad.
  • LastModified_From wordt gebruikt om de bestanden te selecteren waarvan het kenmerk LastModifiedDate na of gelijk is aan deze datum/tijd-waarde. Als u alleen de nieuwe bestanden wilt selecteren, die niet de laatste keer zijn gekopieerd, kan deze datum/tijd-waarde het tijdstip zijn waarop de pijplijn de laatste keer is geactiveerd. U kunt de standaardwaarde '2019-02-01T00:00:00Z' vervangen door de verwachte LastModifiedDate in utc-tijdzone.
  • LastModified_To wordt gebruikt om de bestanden te selecteren waarvan het kenmerk LastModifiedDate vóór deze datum/tijd-waarde valt. Als u de nieuwe bestanden alleen wilt selecteren, die niet zijn gekopieerd in eerdere uitvoeringen, kan deze datum/tijd-waarde de huidige tijd zijn. U kunt de standaardwaarde '2019-02-01T00:00:00Z' vervangen door de verwachte LastModifiedDate in utc-tijdzone.

Deze oplossingssjabloon gebruiken

  1. Navigeer naar de sjabloongalerie op het tabblad Auteur in Azure Data Factory en kies vervolgens de + knop Pijplijn en ten slotte Sjabloongalerie.

    Schermopname die laat zien hoe u de galerie Met sjablonen opent op het tabblad Auteur van Azure Data Factory Studio.

  2. Zoek naar de sjabloon Nieuwe bestanden alleen kopiëren door LastModifiedDate, selecteer deze en selecteer vervolgens Doorgaan.

    Schermopname die laat zien hoe u de sjabloon Nieuwe bestanden kopiëren alleen kunt vinden en selecteren met de sjabloon LastModifiedDate.

  3. Maak een nieuwe verbinding met uw doelarchief. In het doelarchief wilt u bestanden kopiëren.

    Een nieuwe verbinding met de bron maken

  4. Maak een nieuwe verbinding met het bronopslagarchief. In het bronopslagarchief wilt u bestanden kopiëren.

    Een nieuwe verbinding met de bestemming maken

  5. Selecteer Deze sjabloon gebruiken.

    Deze sjabloon gebruiken

  6. U ziet de pijplijn die beschikbaar is in het deelvenster, zoals wordt weergegeven in het volgende voorbeeld:

    De pijplijn weergeven

  7. Selecteer Fouten opsporen, schrijf de waarde voor de parameters en selecteer Voltooien. In de volgende afbeelding stellen we de parameters als volgt in.

    • FolderPath_Source = sourcefolder
    • Directory_Source = submap
    • FolderPath_Destination = destinationfolder
    • Directory_Destination = submap
    • LastModified_From = 2019-02-01T00:00:00Z
    • LastModified_To = 2019-03-01T00:00:00Z

    In het voorbeeld wordt aangegeven dat de bestanden, die voor het laatst zijn gewijzigd binnen de periode (2019-02-01T00:00:00Z tot 2019-03-01T00:00:00Z) worden gekopieerd uit de bronpadbronmap/submap naar de doelpaddoelmap/submap. U kunt deze tijden of mappen vervangen door uw eigen parameters.

    De pijplijn uitvoeren

  8. Bekijk het resultaat. U ziet alleen de bestanden die het laatst zijn gewijzigd in de geconfigureerde periode, worden gekopieerd naar het doelarchief.

    Het resultaat controleren

  9. U kunt nu een tumblingvenstertrigger toevoegen om deze pijplijn te automatiseren, zodat de pijplijn altijd nieuwe en gewijzigde bestanden alleen kan kopiëren door LastModifiedDate. Selecteer Trigger toevoegen en selecteer Nieuw/Bewerken.

    Schermopname met de menuoptie Nieuw/Bewerken gemarkeerd die wordt weergegeven wanneer u Trigger Toevoegen selecteert.

  10. Selecteer + Nieuw in het venster Triggers toevoegen.

  11. Selecteer Tumblingvenster voor het triggertype, stel elke 15 minuten in als het terugkeerpatroon (u kunt wijzigen in elke intervaltijd). Selecteer Ja voor geactiveerd vak en selecteer vervolgens OK.

    Trigger maken

  12. Stel de waarde voor de parameters triggeruitvoering als volgt in en selecteer Voltooien.

    • = FolderPath_Source bronmap. U kunt deze vervangen door uw map in het brongegevensarchief.
    • = Directory_Source submap. U kunt vervangen door uw submap in het brongegevensarchief.
    • = FolderPath_Destination doelmap. U kunt deze vervangen door uw map in het doelgegevensarchief.
    • = Directory_Destination submap. U kunt vervangen door uw submap in het doelgegevensarchief.
    • = LastModified_From@trigger().outputs.windowStartTime. Het is een systeemvariabele van de trigger die bepaalt hoe laat de pijplijn de laatste keer is geactiveerd.
    • = LastModified_To@trigger().outputs.windowEndTime. Het is een systeemvariabele van de trigger die bepaalt hoe laat de pijplijn deze keer wordt geactiveerd.

    Invoerparameters

  13. Selecteer Alles publiceren.

    Alles publiceren

  14. Maak nieuwe bestanden in de bronmap van het gegevensbronarchief. U wacht nu totdat de pijplijn automatisch wordt geactiveerd en alleen de nieuwe bestanden worden gekopieerd naar het doelarchief.

  15. Selecteer het tabblad Controleren in het linkernavigatievenster en wacht ongeveer 15 minuten als het terugkeerpatroon van de trigger is ingesteld op elke 15 minuten.

  16. Bekijk het resultaat. U ziet dat uw pijplijn elke 15 minuten automatisch wordt geactiveerd en alleen de nieuwe of gewijzigde bestanden uit het bronarchief worden gekopieerd naar het doelarchief in elke pijplijnuitvoering.

    Schermopname van de resultaten die worden geretourneerd wanneer de pijplijn wordt geactiveerd.