Share via


Copiare in modo incrementale i file nuovi e modificati in base a LastModifiedDate usando lo strumento Copia dati

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

In questa esercitazione si userà il portale di Azure per creare una data factory. Si userà quindi lo strumento Copia dati per creare una pipeline che copia in modo incrementale solo i file nuovi e modificati, dall'archiviazione BLOB di Azure all'archiviazione BLOB di Azure. LastModifiedDate Usa per determinare quali file copiare.

Dopo aver completato i passaggi, Azure Data Factory analizzerà tutti i file nell'archivio di origine, applica il filtro di file in LastModifiedDatebase a e copia nell'archivio di destinazione solo i file nuovi o aggiornati dall'ultima volta. Si noti che se Data Factory esegue l'analisi di un numero elevato di file, è comunque consigliabile prevedere durate lunghe. L'analisi dei file richiede molto tempo, anche quando la quantità di dati copiati viene ridotta.

Nota

Se non si ha familiarità con Data Factory, vedere Introduzione ad Azure Data Factory.

In questa esercitazione si completeranno le attività seguenti:

  • Creare una data factory.
  • Usare lo strumento Copia dati per creare una pipeline.
  • Monitorare le esecuzioni di pipeline e attività.

Prerequisiti

  • Sottoscrizione di Azure: se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
  • Archiviazione di Azure account: usare l'archiviazione BLOB per gli archivi dati di origine e sink. Se non si ha un account Archiviazione di Azure, seguire le istruzioni in Creare un account di archiviazione.

Creare due contenitori nell'archivio BLOB

Preparare l'archiviazione BLOB per l'esercitazione completando questi passaggi:

  1. Creare un contenitore denominato source. È possibile usare vari strumenti per eseguire questa attività, ad esempio Archiviazione di Azure Explorer.

  2. Creare un contenitore denominato destination.

Creare una data factory

  1. Nel riquadro a sinistra selezionare Crea risorsa. Selezionare Integration Data Factory(Integrazione>data factory):

    Select Data Factory

  2. Nella pagina Nuova data factory immettere ADFTutorialDataFactory in Nome.

    Il nome della data factory deve essere univoco a livello globale. È possibile che venga visualizzato questo messaggio di errore:

    New data factory error message for duplicate name.

    Se viene visualizzato un messaggio di errore relativo al valore del nome, immettere un nome diverso per la data factory. Ad esempio, usare il nome nomeutenteADFTutorialDataFactory. Per informazioni sulle regole di denominazione per gli elementi di Data Factory, vedere Azure Data Factory - Regole di denominazione.

  3. In Sottoscrizione selezionare la sottoscrizione di Azure in cui si creerà la nuova data factory.

  4. In Gruppo di risorse eseguire una di queste operazioni:

    • Selezionare Usa esistente e quindi selezionare un gruppo di risorse esistente nell'elenco.

    • Selezionare Crea nuovo e quindi immettere un nome per il gruppo di risorse.

    Per informazioni sui gruppi di risorse, vedere l'articolo su come usare gruppi di risorse per gestire le risorse di Azure.

  5. In Versione selezionare V2.

  6. In Località selezionare la località per la data factory. Nell'elenco vengono visualizzate solo le posizioni supportate. Gli archivi dati (ad esempio, Archiviazione di Azure e database SQL di Azure) e i calcoli (ad esempio, Azure HDInsight) usati dalla data factory possono trovarsi in altre località e aree.

  7. Seleziona Crea.

  8. Dopo aver creato la data factory, viene visualizzata la home page della data factory.

  9. Per aprire l'interfaccia utente di Azure Data Factory in una scheda separata, selezionare Apri nel riquadro Apri Azure Data Factory Studio:

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Usare lo strumento Copia dati per creare una pipeline

  1. Nella home page di Azure Data Factory selezionare il riquadro Inserimento per aprire lo strumento Copia dati:

    Screenshot that shows the ADF home page.

  2. Nella pagina Proprietà seguire questa procedura:

    1. In Tipo di attività selezionare Attività di copia predefinita.

    2. In Frequenza attività o pianificazione attività selezionare la finestra a cascata.

    3. In Ricorrenza immettere 15 minuti.

    4. Selezionare Avanti.

    Copy data properties page

  3. Nella pagina Archivio dati di origine completare questi passaggi:

    1. Selezionare + Nuova connessione per aggiungere una connessione.

    2. Selezionare Archiviazione BLOB di Azure dalla raccolta e quindi selezionare Continua:

      Select Azure Blog Storage

    3. Nella pagina Nuova connessione (Archiviazione BLOB di Azure) selezionare la sottoscrizione di Azure dall'elenco delle sottoscrizioni di Azure e l'account di archiviazione dall'elenco Archiviazione nome account. Testare la connessione e quindi selezionare Crea.

    4. Selezionare la connessione appena creata nel blocco Connessione ion.

    5. Nella sezione File o cartella selezionare Sfoglia e scegliere la cartella di origine e quindi selezionare OK.

    6. In Comportamento caricamento file selezionare Caricamento incrementale: LastModifiedDate e scegliere Copia binaria.

    7. Selezionare Avanti.

    Screenshot that shows the 'Source data store' page.

  4. Nella pagina Archivio dati di destinazione completare questa procedura:

    1. Selezionare la connessione AzureBlob Archiviazione creata. Si tratta dello stesso account di archiviazione dell'archivio dati di origine.

    2. Nella sezione Percorso cartella cercare e selezionare la cartella di destinazione e quindi selezionare OK.

    3. Selezionare Avanti.

    Screenshot that shows the 'Destination data store' page.

  5. Nella pagina Impostazioni, in Nome attività immettere DeltaCopyFromBlobPipeline e quindi selezionare Avanti. Data Factory crea una pipeline con il nome dell'attività specificato.

    Screenshot that shows the Settings page.

  6. Nella pagina Riepilogo esaminare le impostazioni e quindi selezionare Avanti.

    Summary page

  7. Nella pagina Distribuzione selezionare Monitoraggio per monitorare la pipeline (attività).

    Deployment page

  8. Si noti che la scheda Monitoraggio a sinistra è selezionata automaticamente. L'applicazione passa alla scheda Monitoraggio . Viene visualizzato lo stato della pipeline. Selezionare Aggiorna per aggiornare l'elenco. Selezionare il collegamento in Nome pipeline per visualizzare i dettagli dell'esecuzione dell'attività o per eseguire di nuovo la pipeline.

    Refresh the list and view activity run details

  9. Nella pipeline è presente una sola attività (l'attività di copia), quindi viene visualizzata una sola voce. Per informazioni dettagliate sull'operazione di copia, nella pagina Esecuzioni attività selezionare il collegamento Dettagli (icona degli occhiali) nella colonna Nome attività. Per informazioni dettagliate sulle proprietà, vedere attività Copy panoramica.

    Copy activity in the pipeline

    Poiché non sono presenti file nel contenitore di origine nell'account di archiviazione BLOB, non verranno visualizzati file copiati nel contenitore di destinazione nell'account:

    No files in source container or destination container

  10. Creare un file di testo vuoto e denominarlo file1.txt. Caricare questo file di testo nel contenitore di origine nell'account di archiviazione. È possibile usare vari strumenti per eseguire queste attività, ad esempio Archiviazione di Azure Explorer.

    Create file1.txt and upload it to the source container

  11. Per tornare alla visualizzazione Esecuzioni pipeline, selezionare Il collegamento Tutte le esecuzioni di pipeline nel menu di navigazione nella pagina Esecuzioni attività e attendere che la stessa pipeline venga attivata di nuovo automaticamente.

  12. Al termine della seconda esecuzione della pipeline, seguire gli stessi passaggi indicati in precedenza per esaminare i dettagli dell'esecuzione dell'attività.

    Si noterà che un file (file1.txt) è stato copiato dal contenitore di origine al contenitore di destinazione dell'account di archiviazione BLOB:

    file1.txt has been copied from the source container to the destination container

  13. Creare un altro file di testo vuoto e denominarlo file2.txt. Caricare questo file di testo nel contenitore di origine nell'account di archiviazione BLOB.

  14. Ripetere i passaggi 11 e 12 per il secondo file di testo. Si noterà che solo il nuovo file (file2.txt) è stato copiato dal contenitore di origine al contenitore di destinazione dell'account di archiviazione durante l'esecuzione della pipeline.

    È anche possibile verificare che sia stato copiato un solo file usando Archiviazione di Azure Explorer per analizzare i file:

    Scan files by using Azure Storage Explorer

Passare all'esercitazione seguente per informazioni su come trasformare i dati usando un cluster Apache Spark in Azure: