Condividi tramite


Copiare in modo incrementale nuovi file in base al nome file partizionato in base al tempo usando lo strumento Copia dati

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

In questa esercitazione si usa il portale di Azure per creare una data factory. Usare quindi lo strumento Copia dati per creare una pipeline che copia in modo incrementale nuovi file in base al nome di file partizionato in tempo dall'archivio BLOB di Azure all'archivio BLOB di Azure.

Nota

Se non si ha familiarità con Azure Data Factory, vedere Introduzione ad Azure Data Factory.

In questa esercitazione si segue questa procedura:

  • Creare una data factory.
  • Usare lo strumento Copia dati per creare una pipeline.
  • Monitorare le esecuzioni di pipeline e attività.

Prerequisiti

  • Sottoscrizione di Azure: se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
  • Account di archiviazione di Azure: usare l'archiviazione BLOB come archivio dati di origine e sink . Se non è disponibile un account di archiviazione di Azure, vedere le istruzioni fornite in Creare un account di archiviazione.

Creare due contenitori nell'archivio BLOB

Preparare l'archiviazione BLOB per l'esercitazione eseguendo questi passaggi.

  1. Creare un contenitore denominato source. Creare un percorso di cartella come 15/07/2021/2021 nel contenitore. Creare un file di testo vuoto e denominarlo come file1.txt. Caricare il file1.txt nell'origine percorso cartella /2021/07/15/06 nell'account di archiviazione. Per eseguire queste attività è possibile usare vari strumenti, ad esempio Azure Storage Explorer.

    caricamento dei file

    Nota

    Modificare il nome della cartella con l'ora UTC. Ad esempio, se l'ora UTC corrente è 06:10 il 15 luglio 2021, è possibile creare il percorso della cartella come origine/2021/07/15/06/ dalla regola di origine/{Anno}/{Mese}/{Giorno}/{Ora}/.

  2. Creare un contenitore denominato destination. Per eseguire queste attività è possibile usare vari strumenti, ad esempio Azure Storage Explorer.

Creare una data factory

  1. Nel menu sinistro selezionare Crea una risorsa>Integrazione>Data factory:

    Selezione di Data Factory nella

  2. Nella pagina Nuova data factory immettere ADFTutorialDataFactory in Nome.

    Il nome della data factory deve essere univoco a livello globale. Potrebbe essere visualizzato il messaggio di errore seguente:

    Nuovo messaggio di errore della data factory per il nome duplicato.

    Se viene visualizzato un messaggio di errore relativo al valore del nome, immettere un nome diverso per la data factory. Ad esempio, usare il nome nomeutenteADFTutorialDataFactory. Per informazioni sulle regole di denominazione per gli elementi di Data Factory, vedere Azure Data Factory - Regole di denominazione.

  3. Selezionare la sottoscrizione di Azure in cui creare la nuova data factory.

  4. In Gruppo di risorse eseguire una di queste operazioni:

    a. Selezionare Usa esistentee scegliere un gruppo di risorse esistente dall'elenco a discesa.

    b. Selezionare Crea nuovoe immettere un nome per il gruppo di risorse.

    Per informazioni sui gruppi di risorse, vedere l'articolo su come usare gruppi di risorse per gestire le risorse di Azure.

  5. In Versione selezionare la versione V2.

  6. In Località selezionare la località per la data factory. Nell'elenco a discesa vengono visualizzate solo le località supportate. Gli archivi dati (ad esempio, Archiviazione di Azure e il database SQL) e le risorse di calcolo (ad esempio, Azure HDInsight) usati dalla data factory possono trovarsi in altre località e aree.

  7. Seleziona Crea.

  8. Al termine della creazione verrà visualizzata la home page Data factory.

  9. Per avviare l'interfaccia utente di Azure Data Factory in una scheda separata, selezionare Apri nel riquadro Apri Azure Data Factory Studio.

    Home page per Azure Data Factory, con il riquadro Apri Azure Data Factory Studio.

Usare lo strumento Copia dati per creare una pipeline

  1. Nella home page di Azure Data Factory selezionare il titolo Inserimento per avviare lo strumento Copia dati.

    Screenshot che mostra la home page di Azure Data Factory.

  2. Nella pagina Proprietà seguire questa procedura:

    1. In Tipo di attività scegliere Attività di copia predefinita.

    2. In Frequenza attività o pianificazione attività selezionare la finestra a cascata.

    3. In Ricorrenza immettere 1 ora.

    4. Selezionare Avanti.

    Pagina Proprietà

  3. Nella pagina Archivio dati di origine completare la procedura seguente:

    a. Selezionare + Nuova connessione per aggiungere una connessione.

    b. Selezionare Archiviazione BLOB di Azure nella raccolta e quindi Continua.

    c. Nella pagina Nuova connessione (Archiviazione BLOB di Azure) immettere un nome per la connessione. Selezionare la sottoscrizione di Azure e selezionare l'account di archiviazione nell'elenco Nome account di archiviazione. Testare la connessione e quindi selezionare Crea.

    Pagina Archivio dati di origine

    d. Nella pagina Archivio dati di origine selezionare la connessione appena creata nella sezione Connessione.

    e. Nella sezione File o cartella individuare e selezionare il contenitore di origine, quindi selezionare OK.

    f. In Comportamento di caricamento file selezionare Caricamento incrementale : nomi di file/cartelle partizionate in tempo.

    g. Scrivere il percorso della cartella dinamica come source/{year}/{month}/{day}/{hour}/e modificare il formato come illustrato nello screenshot seguente.

    h. Selezionare Copia binaria e selezionare Avanti.

    Screenshot che mostra la configurazione della pagina Archivio dati di origine.

  4. Nella pagina Archivio dati di destinazione completare la procedura seguente:

    1. Selezionare AzureBlobStorage, ovvero lo stesso account di archiviazione dell'archivio origine dati.

    2. Sfogliare e selezionare la cartella di destinazione , quindi selezionare OK.

    3. Scrivere il percorso della cartella dinamica come destinazione/{anno}/{mese}/{day}/{hour}/e modificare il formato come illustrato nello screenshot seguente.

    4. Selezionare Avanti.

    Screenshot che mostra la configurazione della pagina Archivio dati di destinazione.

  5. Nella pagina Impostazioni, in Nome attività immettere DeltaCopyFromBlobPipeline e quindi selezionare Avanti. L'interfaccia utente di Data Factory crea una pipeline con il nome di attività specificato.

    Screenshot che mostra la configurazione della pagina delle impostazioni.

  6. Nella pagina Riepilogo esaminare le impostazioni e quindi selezionare Avanti.

    Pagina Riepilogo

  7. Nella pagina Distribuzione selezionare Monitoraggio per monitorare la pipeline (attività). Pagina Distribuzione

  8. Si noti che la scheda Monitoraggio a sinistra è selezionata automaticamente. È necessario attendere l'esecuzione della pipeline quando viene attivata automaticamente (circa dopo un'ora). Quando viene eseguita, selezionare il collegamento deltaCopyFromBlobPipeline del nome della pipeline per visualizzare i dettagli dell'esecuzione dell'attività o rieseguire la pipeline. Selezionare Aggiorna per aggiornare l'elenco.

    Screenshot che mostra il riquadro Esecuzioni pipeline.

  9. Dato che la pipeline contiene una sola attività (attività di copia), viene visualizzata una sola voce. Modificare la larghezza delle colonne Origine e Destinazione (se necessario) per visualizzare altri dettagli, è possibile vedere che il file di origine (file1.txt) è stato copiato dall'origine /2021/07/07/15/06/ alla destinazione/2021/07/15/06/ con lo stesso nome file.

    Screenshot che mostra i dettagli dell'esecuzione della pipeline.

    È anche possibile verificare lo stesso usando Archiviazione di Azure Explorer (https://storageexplorer.com/) per analizzare i file.

    Screenshot che mostra i dettagli dell'esecuzione della pipeline per la destinazione.

  10. Creare un altro file di testo vuoto con il nuovo nome come file2.txt. Caricare il file file2.txt nell'origine percorso cartella /2021/07/15/07 nell'account di archiviazione. Per eseguire queste attività è possibile usare vari strumenti, ad esempio Azure Storage Explorer.

    Nota

    È possibile tenere presente che è necessario creare un nuovo percorso di cartella. Modificare il nome della cartella con l'ora UTC. Ad esempio, se l'ora UTC corrente è 7:30 del mese di luglio. 15th, 2021, you can create the folder path as source/2021/07/15/07/ by the rule of {Year}/{Month}/{Day}/{Hour}/.

  11. Per tornare alla visualizzazione Esecuzioni pipeline, selezionare Tutte le esecuzioni di pipeline e attendere che la stessa pipeline venga attivata di nuovo automaticamente dopo un'altra ora.

    Screenshot che mostra il collegamento Tutte le esecuzioni della pipeline per tornare a tale pagina.

  12. Selezionare il nuovo collegamento DeltaCopyFromBlobPipeline per la seconda esecuzione della pipeline quando arriva e fare lo stesso per esaminare i dettagli. Si noterà che il file di origine (file2.txt) è stato copiato dall'origine /2021/07/15/07/ alla destinazione/2021/07/15/07/ con lo stesso nome file. È anche possibile verificare lo stesso usando Archiviazione di Azure Explorer (https://storageexplorer.com/) per analizzare i file nel contenitore di destinazione.

Passare all'esercitazione successiva per informazioni sulla trasformazione dei dati usando un cluster Spark in Azure: