Copiare in modo incrementale i file nuovi e modificati in base a LastModifiedDate usando lo strumento Copia dati

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

In questa esercitazione si userà il portale di Azure per creare una data factory. Si userà quindi lo strumento Copia dati per creare una pipeline che copia in modo incrementale solo i file nuovi e modificati, dall'archiviazione BLOB di Azure all'archiviazione BLOB di Azure. LastModifiedDate Usa per determinare quali file copiare.

Dopo aver completato i passaggi, Azure Data Factory analizzerà tutti i file nell'archivio di origine, applica il filtro di file in LastModifiedDatebase a e copia nell'archivio di destinazione solo i file nuovi o aggiornati dall'ultima volta. Si noti che se Data Factory esegue l'analisi di un numero elevato di file, è comunque consigliabile prevedere durate lunghe. L'analisi dei file richiede molto tempo, anche quando la quantità di dati copiati viene ridotta.

Nota

Se non si ha familiarità con Data Factory, vedere Introduzione ad Azure Data Factory.

In questa esercitazione si completeranno le attività seguenti:

Creare una data factory.
Usare lo strumento Copia dati per creare una pipeline.
Monitorare le esecuzioni di pipeline e attività.

Prerequisiti

Sottoscrizione di Azure: se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
Archiviazione di Azure account: usare l'archiviazione BLOB per gli archivi dati di origine e sink. Se non si ha un account Archiviazione di Azure, seguire le istruzioni in Creare un account di archiviazione.

Creare due contenitori nell'archivio BLOB

Preparare l'archiviazione BLOB per l'esercitazione completando questi passaggi:

Creare un contenitore denominato source. È possibile usare vari strumenti per eseguire questa attività, ad esempio Archiviazione di Azure Explorer.
Creare un contenitore denominato destination.

Creare una data factory

Nel menu in alto selezionare Crea una risorsa>Data Factory>:
Nella pagina Nuova data factory immettere ADFTutorialDataFactory in Nome.

Il nome della data factory deve essere univoco a livello globale. È possibile che venga visualizzato questo messaggio di errore:

Se viene visualizzato un messaggio di errore relativo al valore del nome, immettere un nome diverso per la data factory. Ad esempio, usare il nome nomeutenteADFTutorialDataFactory. Per informazioni sulle regole di denominazione per gli elementi di Data Factory, vedere Azure Data Factory - Regole di denominazione.
In Sottoscrizione selezionare la sottoscrizione di Azure in cui si creerà la nuova data factory.
In Gruppo di risorse eseguire una di queste operazioni:
- Selezionare Usa esistente e quindi selezionare un gruppo di risorse esistente nell'elenco.
- Selezionare Crea nuovo e quindi immettere un nome per il gruppo di risorse.
Per informazioni sui gruppi di risorse, vedere l'articolo su come usare gruppi di risorse per gestire le risorse di Azure.
In Versione selezionare V2.
In Località selezionare la località per la data factory. Nell'elenco vengono visualizzate solo le posizioni supportate. Gli archivi dati (ad esempio, Archiviazione di Azure e database SQL di Azure) e i calcoli (ad esempio, Azure HDInsight) usati dalla data factory possono trovarsi in altre località e aree.
Seleziona Crea.
Dopo aver creato la data factory, viene visualizzata la home page della data factory.
Per aprire l'interfaccia utente di Azure Data Factory in una scheda separata, selezionare Apri nel riquadro Apri Azure Data Factory Studio:

Usare lo strumento Copia dati per creare una pipeline

Nella home page di Azure Data Factory selezionare il riquadro Inserimento per aprire lo strumento Copia dati:
Nella pagina Proprietà seguire questa procedura:
1. In Tipo di attività selezionare Attività di copia predefinita.
2. In Frequenza attività o pianificazione attività selezionare la finestra a cascata.
3. In Ricorrenza immettere 15 minuti.
4. Selezionare Avanti.
Nella pagina Archivio dati di origine completare questi passaggi:
1. Selezionare + Nuova connessione per aggiungere una connessione.
2. Selezionare Archiviazione BLOB di Azure dalla raccolta e quindi selezionare Continua:
3. Nella pagina Nuova connessione (Archiviazione BLOB di Azure) selezionare la sottoscrizione di Azure dall'elenco delle sottoscrizioni di Azure e l'account di archiviazione dall'elenco Nome account di archiviazione. Testare la connessione e quindi selezionare Crea.
4. Selezionare la connessione appena creata nel blocco Connessione .
5. Nella sezione File o cartella selezionare Sfoglia e scegliere la cartella di origine e quindi selezionare OK.
6. In Comportamento caricamento file selezionare Caricamento incrementale: LastModifiedDate e scegliere Copia binaria.
7. Selezionare Avanti.
Nella pagina Archivio dati di destinazione completare questa procedura:
1. Selezionare la connessione AzureBlobStorage creata. Si tratta dello stesso account di archiviazione dell'archivio dati di origine.
2. Nella sezione Percorso cartella cercare e selezionare la cartella di destinazione e quindi selezionare OK.
3. Selezionare Avanti.
Nella pagina Impostazioni, in Nome attività immettere DeltaCopyFromBlobPipeline e quindi selezionare Avanti. Data Factory crea una pipeline con il nome dell'attività specificato.
Nella pagina Riepilogo esaminare le impostazioni e quindi selezionare Avanti.
Nella pagina Distribuzione selezionare Monitoraggio per monitorare la pipeline (attività).
Si noti che la scheda Monitoraggio a sinistra è selezionata automaticamente. L'applicazione passa alla scheda Monitoraggio . Viene visualizzato lo stato della pipeline. Selezionare Aggiorna per aggiornare l'elenco. Selezionare il collegamento in Nome pipeline per visualizzare i dettagli dell'esecuzione dell'attività o per eseguire di nuovo la pipeline.
Nella pipeline è presente una sola attività (l'attività di copia), quindi viene visualizzata una sola voce. Per informazioni dettagliate sull'operazione di copia, nella pagina Esecuzioni attività selezionare il collegamento Dettagli (icona degli occhiali) nella colonna Nome attività. Per informazioni dettagliate sulle proprietà, vedere attività Copy panoramica.

Poiché non sono presenti file nel contenitore di origine nell'account di archiviazione BLOB, non verranno visualizzati file copiati nel contenitore di destinazione nell'account:
Creare un file di testo vuoto e denominarlo file1.txt. Caricare questo file di testo nel contenitore di origine nell'account di archiviazione. È possibile usare vari strumenti per eseguire queste attività, ad esempio Archiviazione di Azure Explorer.
Per tornare alla visualizzazione Esecuzioni pipeline, selezionare Il collegamento Tutte le esecuzioni di pipeline nel menu di navigazione nella pagina Esecuzioni attività e attendere che la stessa pipeline venga attivata di nuovo automaticamente.
Al termine della seconda esecuzione della pipeline, seguire gli stessi passaggi indicati in precedenza per esaminare i dettagli dell'esecuzione dell'attività.

Si noterà che un file (file1.txt) è stato copiato dal contenitore di origine al contenitore di destinazione dell'account di archiviazione BLOB:
Creare un altro file di testo vuoto e denominarlo file2.txt. Caricare questo file di testo nel contenitore di origine nell'account di archiviazione BLOB.
Ripetere i passaggi 11 e 12 per il secondo file di testo. Si noterà che solo il nuovo file (file2.txt) è stato copiato dal contenitore di origine al contenitore di destinazione dell'account di archiviazione durante l'esecuzione della pipeline.

È anche possibile verificare che sia stato copiato un solo file usando Archiviazione di Azure Explorer per analizzare i file:

Passare all'esercitazione seguente per informazioni su come trasformare i dati usando un cluster Apache Spark in Azure:

Trasformare i dati nel cloud usando un cluster Apache Spark

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2024-10-03