Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
SI APPLICA A: Azure Data Factory
Azure Synapse Analytics
Suggerimento
Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!
In questa esercitazione si usa l'interfaccia utente di Azure Data Factory per creare una pipeline che copia e trasforma i dati da un'origine Azure Data Lake Storage (ADLS) Gen2 a un sink di ADLS Gen2 usando il flusso di dati per mapping. Il modello di configurazione in questa esercitazione può essere espanso quando si trasformano i dati usando il flusso di dati di mapping
Questa esercitazione è relativa ai flussi di dati per mapping in generale. I flussi di dati sono disponibili sia in Azure Data Factory che nelle pipeline di Synapse. Se non si ha familiarità con i flussi di dati nelle pipeline di Azure Synapse, seguire Flusso di dati con Azure Synapse Pipelines.
In questa esercitazione vengono completati i passaggi seguenti:
- Creare una data factory.
- Creare una pipeline con un'attività di Flusso di dati.
- Creare un flusso di dati di mapping con quattro trasformazioni.
- Eseguire test della pipeline.
- Monitorare un’attività di flusso di dati
Prerequisiti
- Sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account Azure gratuito prima di iniziare.
- Account Azure Data Lake Storage Gen2. Usare l'archivio di Azure Data Lake Storage come archivi dati di origine e sink. Se non si ha un account di archiviazione, vedere Creare un account di archiviazione di Azure per informazioni su come crearne uno.
- Scarica MoviesDB.csv qui. Per recuperare il file da GitHub, copiare il contenuto in un editor di testo di propria scelta per salvare localmente come file .csv. Caricare il file nell'account di archiviazione in un contenitore denominato "sample-data".
Creare una data factory
In questo passaggio si crea una data factory e si apre l'esperienza utente di Data Factory per creare una pipeline nella data factory.
Aprire Microsoft Edge o Google Chrome. L'interfaccia utente di Data Factory è attualmente supportata solo nei Web browser Microsoft Edge e Google Chrome.
Nel menu in alto selezionare Crea una risorsa>Data Factory>:
Nella pagina Nuova data factory immettere ADFTutorialDataFactory in Nome.
Il nome della data factory di Azure deve essere univoco a livello globale. Se viene visualizzato un messaggio di errore relativo al valore del nome, inserisci un nome diverso per il data factory. Ad esempio, nomeutenteADFTutorialDataFactory. Per informazioni sulle regole di denominazione per gli elementi di Data factory, vedere Azure Data factory - Regole di denominazione.
Selezionare la sottoscrizione di Azure in cui creare la data factory.
In Gruppo di risorse eseguire una di queste operazioni:
Selezionare Usa esistentee scegliere un gruppo di risorse esistente dall'elenco a discesa.
Selezionare Crea nuovoe immettere un nome per il gruppo di risorse.
Per informazioni sui gruppi di risorse, vedere l'articolo su come usare gruppi di risorse per gestire le risorse di Azure.
In Versione selezionare V2.
In Area, seleziona una località per la fabbrica dei dati. Nell'elenco a discesa vengono mostrate solo le località supportate. Archivi dati (ad esempio, Archiviazione di Azure e il database SQL) e risorse di calcolo (ad esempio, Azure HDInsight) usati dalla data factory possono trovarsi in altre aree.
Selezionare Rivedi e crea e quindi Crea.
Al termine della creazione, la relativa notifica verrà visualizzata nel centro notifiche. Selezionare Vai alla risorsa per passare alla pagina della Data Factory.
Selezionare Avvia studio per avviare Data Factory Studio in una scheda separata.
Creare una pipeline con un'attività Flusso di dati
In questo passaggio si crea una pipeline che contiene un'attività Flusso di dati.
Nella home page di Azure Data Factory selezionare Orchestrate.
Ora è aperta una finestra per una nuova pipeline. Nella scheda Generale per le proprietà della pipeline immettere TransformMovies per Nome della pipeline.
Nel riquadro Attività espandere l'accordion Sposta e trasforma. Trascinare e rilasciare l'attività Flusso di dati dal riquadro all'area di disegno della pipeline.
Assegnare un nome all'attività del flusso di dati DataFlow1.
Nella barra superiore dell'area di disegno della pipeline trascinare il dispositivo di scorrimento Debug flusso di dati. La modalità di debug consente il test interattivo della logica di trasformazione rispetto a un cluster Spark live. I cluster di Flusso Di Dati richiedono 5-7 minuti per avviarsi ed è consigliabile attivare il debug in anticipo se si prevede di fare sviluppo con il Flusso Di Dati. Per altre informazioni, vedere Modalità di debug.
Costruire la logica di trasformazione nell'area del flusso di dati
In questo passaggio si compila un flusso di dati che accetta il moviesDB.csv nell'archiviazione ADLS e aggrega la classificazione media delle comedies dal 1910 al 2000. Si scrive quindi di nuovo questo file nell'archiviazione ADLS.
Nel pannello sotto l'area di disegno passare a Impostazioni dell'attività del flusso di dati e selezionare Nuovo, che si trova accanto al campo Flusso di dati. Verrà aperta l'area di disegno del flusso di dati.
Nel riquadro Proprietà in Generale assegnare al flusso di dati il nome TransformMovies.
Nell'area di disegno flusso di dati aggiungere un'origine selezionando la casella Aggiungi origine .
Nomina la tua fonte MoviesDB. Selezionare Nuovo per creare un nuovo set di dati di origine.
Selezionare Azure Data Lake Storage Gen2. Selezionare Continua.
Scegliere DelimitedText. Selezionare Continua.
Assegnare al set di dati il nome MoviesDB. Nell'elenco a discesa dei servizi collegati scegliere Nuovo.
Nella schermata di creazione del servizio collegato assegnare al servizio collegato Azure Data Lake Storage Gen2 il nome ADLSGen2 e specificare il metodo di autenticazione. Immettere quindi le credenziali di connessione. In questa esercitazione si usa la chiave dell'account per connettersi all'account di archiviazione. È possibile selezionare Test connessione per verificare che le credenziali siano state immesse correttamente. Al termine, selezionare Crea.
Una volta tornato alla schermata di creazione del set di dati, inserisci il percorso del tuo file nel campo Percorso file. In questa esercitazione il file moviesDB.csv si trova nel contenitore sample-data. Poiché il file ha intestazioni, selezionare Prima riga come intestazione. Selezionare Da connessione/archivio per importare lo schema di intestazione direttamente dal file nella risorsa di archiviazione. Al termine, selezionare OK.
Se il cluster di debug è stato avviato, vai alla scheda Anteprima dati della trasformazione della sorgente e seleziona Aggiorna per ottenere uno snapshot dei dati. È possibile usare l'anteprima dei dati per verificare che la trasformazione sia configurata correttamente.
Accanto al nodo di origine nell'area di disegno del flusso di dati, selezionare l'icona con il segno più per aggiungere una nuova trasformazione. La prima trasformazione che si sta aggiungendo è un filtro.
Denominate la trasformazione del filtro FilterYears. Selezionare la casella di espressione accanto a Filtra per e quindi Apri Generatore di espressioni. Qui si specifica la condizione di filtro.
Il generatore di espressioni del flusso di dati consente di compilare in modo interattivo espressioni da usare in varie trasformazioni. Le espressioni possono includere funzioni predefinite, colonne dello schema di input e parametri definiti dall'utente. Per altre informazioni su come compilare espressioni, vedere Generatore di espressioni del flusso di dati.
In questa esercitazione si vogliono filtrare i film di genere commedia che sono usciti tra gli anni 1910 e 2000. Poiché l’anno è attualmente una stringa, è necessario convertirlo in un numero intero usando la funzione
toInteger()
. Usare gli operatori maggiore o uguale a (>=) e minore o uguale a (<=) per confrontare i valori letterali degli anni 1910 e 2000. Unire queste espressioni con l'operatore AND (&&). L'espressione risulta essere la seguente:toInteger(year) >= 1910 && toInteger(year) <= 2000
Per trovare quali film sono commedie, è possibile usare la funzione
rlike()
per trovare il modello "Commedia" nella colonna Generi. Unire l'espressionerlike
con il confronto dell'anno per ottenere:toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
Se è attivo un cluster di debug, è possibile verificare la logica selezionando Aggiorna per visualizzare l'output dell'espressione rispetto agli input usati. Esiste più di una risposta corretta su come eseguire questa logica usando il linguaggio delle espressioni del flusso di dati.
Dopo aver completato l'espressione, selezionare Salva e fine .
Recuperare un'anteprima dei dati per verificare che il filtro funzioni correttamente.
La trasformazione successiva che si aggiungerà è una di tipo Aggregazione in Modificatore dello schema.
Assegnare un nome alla trasformazione di aggregazione AggregateComedyRatings. Nella scheda Raggruppa per selezionare anno nell'elenco a discesa per raggruppare le aggregazioni in base all'anno in cui è uscito il film.
Passare alla scheda Aggregates (Aggregazioni). Nella casella di testo a sinistra denominare la colonna di aggregazione AverageComedyRating. Selezionare la casella dell'espressione destra per immettere l'espressione di aggregazione tramite il generatore di espressioni.
Per ottenere la media della colonna Valutazione, usare la funzione di aggregazione
avg()
. Poiché Valutazione è una stringa eavg()
accetta un input numerico, è necessario convertire il valore in un numero tramite la funzionetoInteger()
. L'espressione è simile alla seguente:avg(toInteger(Rating))
Al termine, selezionare Salva e fine .
Andare alla scheda Anteprima dati per visualizzare l'output della trasformazione. Si noti che sono presenti solo due colonne, anno e AverageComedyRating.
Successivamente, si desidera aggiungere una trasformazione Sink in Destinazione.
Dai un nome al tuo lavandino Sink. Selezionare Nuovo per creare il set di dati sink.
Selezionare Azure Data Lake Storage Gen2. Selezionare Continua.
Scegliere DelimitedText. Selezionare Continua.
Assegnare al set di dati del sink il nome MoviesSink. Per il servizio collegato, scegliere il servizio collegato ADLS Gen2 creato nel passaggio 6. Immettere una cartella di output in cui scrivere i dati. In questa esercitazione stiamo scrivendo nella cartella 'output' nel contenitore 'sample-data'. Non occorre che la cartella esista in anticipo ed è possibile crearla dinamicamente. Impostare Prima riga come intestazione su true e selezionare Nessuno per Importa schema. Selezionare Fine.
A questo punto la compilazione del flusso di dati è giunta al termine. È ora possibile eseguirlo nella pipeline.
Esecuzione e monitoraggio del flusso di dati
È possibile eseguire il debug di una pipeline prima di pubblicarla. In questo passaggio si attiverà un'esecuzione di debug della pipeline del flusso di dati. L'anteprima dei dati non scrive dati, ma un'esecuzione di debug scrive dati nella destinazione del sink.
Passare all'area di disegno della pipeline. Selezionare Debug per attivare un'esecuzione di debug.
Il debug della pipeline delle attività Flusso di dati usa il cluster di debug attivo. Per la sua inizializzazione è tuttavia necessario attendere almeno un minuto. È possibile monitorare l'avanzamento tramite la scheda Output. Una volta completata l'esecuzione con successo, posizionare il cursore sull'esecuzione e selezionare l'icona degli occhiali per aprire il riquadro di monitoraggio.
Nel riquadro di monitoraggio selezionare il pulsante Fasi per visualizzare il numero di righe e il tempo impiegato in ogni passaggio di trasformazione.
Selezionare una trasformazione per ottenere informazioni dettagliate sulle colonne e sul partizionamento dei dati.
Se questa guida introduttiva è stata eseguita correttamente, si dovrebbe aver scritto 83 righe e 2 colonne nella cartella sink. È possibile verificare che i dati siano corretti controllando l'archiviazione BLOB.
Contenuto correlato
La pipeline in questa esercitazione esegue un flusso di dati che aggrega la classificazione media della categoria comedies dal 1910 al 2000 e scrive i dati in ADLS. Si è appreso come:
- Creare una data factory.
- Creare una pipeline con un'attività di Flusso di dati.
- Creare un flusso di dati di mapping con quattro trasformazioni.
- Eseguire test della pipeline.
- Monitorare un’attività di flusso di dati
Altre informazioni sul Linguaggio delle espressioni del flusso di dati.