Kopiera nya och ändrade filer stegvis baserat på LastModifiedDate med verktyget Kopiera data

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

I den här självstudien använder du Azure-portalen för att skapa en datafabrik. Sedan använder du verktyget Kopiera data för att skapa en pipeline som endast kopierar nya och ändrade filer stegvis, från Azure Blob Storage till Azure Blob Storage. Den använder LastModifiedDate för att avgöra vilka filer som ska kopieras.

När du har slutfört stegen här genomsöker Azure Data Factory alla filer i källarkivet, tillämpar filfiltret efter LastModifiedDateoch kopierar endast filer som är nya eller har uppdaterats sedan förra gången till målarkivet. Observera att om Data Factory söker igenom ett stort antal filer bör du fortfarande förvänta dig långa varaktigheter. Filgenomsökning är tidskrävande, även när mängden data som kopieras minskar.

Kommentar

Om du inte har använt datafabriken tidigare kan du läsa Introduktion till Azure Data Factory.

I den här självstudien får du utföra följande uppgifter:

  • Skapa en datafabrik.
  • Använd verktyget Kopiera data för att skapa en pipeline.
  • Övervaka pipelinen och aktivitetskörningarna.

Förutsättningar

  • Azure-prenumeration: Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.
  • Azure Storage-konto: Använd Blob Storage för käll- och mottagardatalager. Om du inte har något Azure Storage-konto följer du anvisningarna i Skapa ett lagringskonto.

Skapa två containrar i Blob Storage

Förbered bloblagringen för självstudien genom att utföra följande steg:

  1. Skapa en container med namnet source. Du kan använda olika verktyg för att utföra den här uppgiften, till exempel Azure Storage Explorer.

  2. Skapa en container med namnet destination.

Skapa en datafabrik

  1. Välj Skapa en resurs i fönstret till vänster. Välj Integration>Data Factory:

    Select Data Factory

  2. I fönstret Ny datafabrik, under Namn anger du ADFTutorialDataFactory.

    Namnet på datafabriken måste vara globalt unikt. Du kan få det här felmeddelandet:

    New data factory error message for duplicate name.

    Ange ett annat namn för datafabriken om du får ett felmeddelande om namnvärdet. Använd till exempel namnet dittnamnADFTutorialDataFactory. Se artikeln Data Factory – namnregler för namnregler för Data Factory-artefakter.

  3. Under Prenumeration väljer du den Azure-prenumeration där du ska skapa den nya datafabriken.

  4. Under Resursgrupp gör du något av följande:

    • Välj Använd befintlig och välj sedan en befintlig resursgrupp i listan.

    • Välj Skapa ny och ange sedan ett namn för resursgruppen.

    Mer information om resursgrupper finns i Använda resursgrupper för att hantera Azure-resurser.

  5. Under Version väljer du V2.

  6. Under Plats väljer du en plats för datafabriken. Endast platser som stöds visas i listan. Datalager (till exempel Azure Storage och Azure SQL Database) och beräkningar (till exempel Azure HDInsight) som din datafabrik använder kan finnas på andra platser och regioner.

  7. Välj Skapa.

  8. När datafabriken har skapats visas startsidan för datafabriken.

  9. Om du vill öppna Användargränssnittet för Azure Data Factory på en separat flik väljer du Öppna på panelen Öppna Azure Data Factory Studio:

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Använd verktyget Kopiera data för att skapa en pipeline

  1. På startsidan för Azure Data Factory väljer du panelen Mata in för att öppna verktyget Kopiera data:

    Screenshot that shows the ADF home page.

  2. På sidan Egenskaper gör du följande:

    1. Under Aktivitetstyp väljer du Inbyggd kopieringsaktivitet.

    2. Under Aktivitetstakt eller aktivitetsschema väljer du Rullande fönster.

    3. Under Upprepning anger du 15 minuter.

    4. Välj Nästa.

    Copy data properties page

  3. Slutför följande steg på sidan Källdatalager :

    1. Välj + Ny anslutning för att lägga till en anslutning.

    2. Välj Azure Blob Storage i galleriet och välj sedan Fortsätt:

      Select Azure Blog Storage

    3. På sidan Ny anslutning (Azure Blob Storage) väljer du din Azure-prenumeration i azure-prenumerationslistan och ditt lagringskonto i listan Lagringskontonamn. Testa anslutningen och välj sedan Skapa.

    4. Välj den nyligen skapade anslutningen i Anslut ionsblocket.

    5. I avsnittet Fil eller mapp väljer du Bläddra och väljer källmappenoch sedan OK.

    6. Under Beteende för filinläsning väljer du Inkrementell belastning: LastModifiedDate och väljer Binär kopia.

    7. Välj Nästa.

    Screenshot that shows the 'Source data store' page.

  4. Slutför följande steg på sidan Måldatalager :

    1. Välj den AzureBlobStorage-anslutning som du skapade. Det här är samma lagringskonto som källdatalagret.

    2. I avsnittet Mappsökväg bläddrar du efter och väljer målmappen och väljer sedan OK.

    3. Välj Nästa.

    Screenshot that shows the 'Destination data store' page.

  5. På sidan Inställningar under Uppgiftsnamn anger du DeltaCopyFromBlobPipeline och väljer sedan Nästa. Data Factory skapar en pipeline med det angivna aktivitetsnamnet.

    Screenshot that shows the Settings page.

  6. På sidan Sammanfattning granskar du inställningarna och väljer sedan Nästa.

    Summary page

  7. Välj Övervaka på sidan Distribution för att övervaka pipelinen (aktiviteten).

    Deployment page

  8. Observera att fliken Övervaka till vänster väljs automatiskt. Programmet växlar till fliken Övervaka . Du ser status för pipelinen. Om du vill uppdatera listan väljer du Refresh (Uppdatera). Välj länken under Pipelinenamn för att visa aktivitetskörningsinformation eller för att köra pipelinen igen.

    Refresh the list and view activity run details

  9. Det finns bara en aktivitet (kopieringsaktiviteten) i pipelinen, så du ser bara en post. Om du vill ha mer information om kopieringsåtgärden går du till sidan Aktivitetskörningar och väljer länken Information (glasögonikonen) i kolumnen Aktivitetsnamn . Mer information om egenskaperna finns i aktiviteten Kopiera översikt.

    Copy activity in the pipeline

    Eftersom det inte finns några filer i källcontainern i ditt Blob Storage-konto ser du inga filer som kopieras till målcontainern i kontot:

    No files in source container or destination container

  10. Skapa en tom textfil och ge den namnet file1.txt. Ladda upp textfilen till källcontainern i ditt lagringskonto. Du kan använda olika verktyg för att utföra dessa uppgifter, till exempel Azure Storage Explorer.

    Create file1.txt and upload it to the source container

  11. Om du vill gå tillbaka till vyn Pipelinekörningar väljer du Länken Alla pipelinekörningar i menyn breadcrumb på sidan Aktivitetskörningar och väntar tills samma pipeline utlöses automatiskt igen.

  12. När den andra pipelinekörningen är klar följer du samma steg som tidigare för att granska aktivitetskörningsinformationen.

    Du ser att en fil (file1.txt) har kopierats från källcontainern till målcontainern för ditt Blob Storage-konto:

    file1.txt has been copied from the source container to the destination container

  13. Skapa en annan tom textfil och ge den namnet file2.txt. Ladda upp textfilen till källcontainern i ditt Blob Storage-konto.

  14. Upprepa steg 11 och 12 för den andra textfilen. Du ser att endast den nya filen (file2.txt) kopierades från källcontainern till målcontainern för ditt lagringskonto under den här pipelinekörningen.

    Du kan också kontrollera att endast en fil har kopierats med hjälp av Azure Storage Explorer för att genomsöka filerna:

    Scan files by using Azure Storage Explorer

Gå till följande självstudie för att lära dig hur du transformerar data med hjälp av ett Apache Spark-kluster i Azure: