Condividi tramite


Modulo 2: trasformare i dati con un flusso di dati in Data Factory

Il completamento di questo modulo richiede circa 25 minuti. Si crea un flusso di dati, si applicano trasformazioni e si spostano i dati non elaborati dalla tabella del livello dati bronze in una tabella del livello dati gold .

Con i dati non elaborati caricati nella tabella bronze Lakehouse dell'ultimo modulo, è ora possibile arricchiscerli. Combinerai con un'altra tabella che contiene sconti per ogni fornitore e i loro viaggi durante un determinato giorno. Quindi, questa tabella finale gold Lakehouse viene caricata ed è pronta per l'uso.

I passaggi generali del flusso di dati sono:

Prerequisiti

Modulo 1 di questa serie di esercitazioni: Creare una pipeline con Data Factory

Ottenere dati da una tabella Lakehouse

  1. Nella barra laterale selezionare l'area di lavoro, selezionare Nuovo elementoe quindi Dataflow Gen2 per creare un nuovo flusso di dati Gen2.

    Screenshot che mostra la pagina di creazione di Fabric con il pulsante Dataflow Gen2 evidenziato.

  2. Dal nuovo menu del flusso di dati selezionare Recupera dati e quindi Altro….

    Screenshot showing the Dataflow menu with Get data button highlighted and the More... option highlighted from its menu.Screenshot che mostra il menu Flusso di dati con il pulsante Ottieni dati evidenziato e l'opzione Altro... evidenziata nel relativo menu.

  3. Cerca e seleziona il connettore Lakehouse.

    Screenshot showing the selection of the Lakehouse data source from the Choose data source menu.Screenshot che mostra la selezione dell'origine dati Lakehouse dal menu Seleziona origine dati.

  4. Viene visualizzata la finestra di dialogo Connetti all'origine dati e viene creata automaticamente una nuova connessione in base all'utente attualmente registrato. Seleziona Avanti.

    Screenshot che mostra la configurazione delle impostazioni dell'origine dati per il nuovo Lakehouse con l'utente connesso corrente e il pulsante Avanti selezionato.

  5. Viene visualizzata la finestra di dialogo Scegli dati. Usare il pannello di navigazione per trovare il Lakehouse creato per la destinazione nel modulo precedente e selezionare la tabella dati Tutorial_Lakehouse. Successivamente, seleziona Crea.

    Screenshot showing the Lakehouse browser with the workspace, lakehouse, and table created with the Copy activity in module 1.Screenshot che mostra il browser Lakehouse con l'area di lavoro, il lakehouse e la tabella create con l'attività Copy nel modulo 1.

  6. (Facoltativo) Dopo aver popolato l'area di disegno con i dati, è possibile impostare le informazioni sul profilo di colonna, in quanto ciò è utile per la profilatura dei dati. È possibile applicare la trasformazione corretta e impostare come destinazione i valori dei dati corretti in base a esso.

    A tale scopo, selezionare Opzioni nel riquadro della barra multifunzione, quindi selezionare le prime tre opzioni in Profilocolonna e quindi selezionare OK.

    Screenshot showing the column options selection for your data.Screenshot che mostra la selezione delle opzioni delle colonne per i tuoi dati.

Trasformare i dati importati da Lakehouse

  1. Selezionare l'icona del tipo di dati nell'intestazione della colonna della seconda colonna, IpepPickupDatetime, per visualizzare un menu a tendina e selezionare il tipo di dati dal menu per convertire la colonna dal tipo Data/Ora a Data.

    Screenshot showing the selection of the Date data type for the IpepPickupDatetime column.Screenshot che mostra la selezione del tipo di dati Date per la colonna IpepPickupDatetime.

  2. (Facoltativo) Nella scheda Home della barra multifunzione, seleziona l'opzione Scegli colonne dal gruppo Gestisci colonne.

    Screenshot that shows the Choose columns button on the Home tab of the dataflow editor.Screenshot che mostra il pulsante "Scegli colonne" nella scheda "Home" dell'editor del flusso di dati.

  3. (Facoltativo) Nella finestra di dialogo Scegli colonne deselezionare alcune colonne elencate qui, quindi selezionare OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • latitudineDiRitiro
    • Longitudine di scarico
    • rateCodeID

    Screenshot showing the Choose columns dialog with the identified columns deselected.Screenshot che mostra la finestra di dialogo Scegli colonne con le colonne identificate deselezionate.

  4. Selezionare il filtro e il menu a discesa della colonna storeAndFwdFlag. (Se viene visualizzato un avviso L'elenco potrebbe essere incompleto, selezionare Carica altro per visualizzare tutti i dati.)

    Schermata che mostra la finestra di dialogo per filtrare e ordinare la colonna.Schermata che mostra la finestra di dialogo per filtrare e ordinare la colonna.

  5. Selezionare "Y" per visualizzare solo le righe in cui è stato applicato uno sconto e quindi selezionare OK.

    Screenshot che mostra il filtro dei valori con solo 'Y' selezionato.Screenshot che mostra i valori filtrati con solo 'Y' selezionato.

  6. Selezionare il menu a discesa per l'ordine e il filtro della colonna IpepPickupDatetime, quindi selezionare Filtri data e scegliere il filtro Intervallo... disponibile per i tipi Data e Data/Ora.

    Screenshot showing the selection of the Date filters option in the column sort and format dropdown.Screenshot che mostra la selezione dell'opzione filtri data nel menu a discesa dei criteri di ordinamento e formato della colonna.

  7. Nella finestra di dialogo Filtra righe selezionare le date tra il 1° gennaio 2015 e il 31 gennaio 2015, quindi selezionare OK.

    Screenshot che mostra la selezione delle date a gennaio 2015.Screenshot che mostra la selezione delle date a gennaio 2015.

Connettersi a un file CSV contenente i dati di sconto

Con i dati dei viaggi a disposizione, si vogliono caricare i dati che contengono i rispettivi sconti per ogni giorno e VendorID e preparare i dati prima di combinarli con i dati delle corse.

  1. Nella scheda Home del menu dell'editor del flusso di dati selezionare l'opzione Recupera dati e quindi scegliere Testo/CSV.

    Screenshot showing the selection of the Get data menu from the Home tab, with Text/CSV highlighted.Screenshot che mostra come selezionare il menu Ottieni dati dalla scheda Home, con Testo/CSV evidenziato.

  2. Nella finestra di dialogo Connetti all'origine dati, specificare i dettagli seguenti:

    • Percorso file o URLhttps://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Tipo di autenticazione: Anonima

    Quindi seleziona Avanti.

    Screenshot che mostra le impostazioni di Testo/CSV per la connessione.

  3. Nella finestra di dialogo Anteprima dati file selezionare Crea.

    Screenshot che mostra la finestra di dialogo Anteprima dati file con il pulsante Crea evidenziato.Screenshot che mostra la finestra di dialogo Anteprima dati file con il pulsante Crea evidenziato.

Trasformare i dati dello sconto

  1. Esaminando i dati, sembra che le intestazioni siano nella prima riga. Imposta come intestazioni selezionando il menu di scelta rapida della tabella nell'angolo in alto a sinistra dell'area della griglia di anteprima per selezionare Usa prima riga come intestazioni.

    Screenshot showing the selection of the Use first row as headers option from the table context menu.Screenshot che mostra la selezione dell'opzione Usa la prima riga come intestazione dal menu di scelta rapida della tabella.

    Nota

    Dopo aver promosso le intestazioni, puoi vedere un nuovo passaggio aggiunto nel riquadro Passaggi applicati nella parte superiore dell'editor del flusso di dati, relativo ai tipi di dati delle colonne.

  2. Fare clic con il pulsante destro del mouse sulla colonna VendorID e, dal menu di scelta rapida visualizzato, selezionare l'opzione Annulla pivot di altre colonne. In questo modo è possibile trasformare le colonne in coppie attributo-valore, in cui le colonne diventano righe.

    Screenshot showing the context menu for the VendorID column with the Unpivot other columns selection highlighted.Screenshot che mostra il menu di scelta rapida per la colonna VendorID con la selezione Unpivot di altre colonne evidenziata.

  3. Con la tabella senza pivot, rinominare le colonne Attributo e Valore facendo doppio clic su di esse e impostando Attributo su Data e Valore su Sconto.

    Screenshot showing the table columns after renaming Attribute to Date and Value to Discount.Screenshot che mostra le colonne della tabella dopo la ridenominazione di Attributo in Data e Valore in Sconto.

  4. Modificare il tipo di dati della colonna Data selezionando il menu tipo di dati a sinistra del nome della colonna e scegliendo Data.

    Screenshot showing the selection of the Date data type for the Date column.Screenshot che mostra la selezione del tipo di dati Date per la colonna Date.

  5. Selezionare la colonna Sconto e quindi selezionare la scheda Trasforma nel menu. Selezionare Colonna Numero, quindi selezionare Trasformazioni numeriche standard dal sottomenu e scegliere Dividi.

    Screenshot showing the selection of the Divide option to transform data in the Discount column.Screenshot che illustra la selezione dell'opzione Dividi per trasformare i dati nella colonna Sconto.

  6. Nella finestra di dialogo Dividi immettere il valore 100.

    Screenshot che mostra la finestra di dialogo Divide con il valore 100 immesso e il pulsante OK evidenziato.Screenshot che mostra la finestra di dialogo Divide con il valore 100 inserito e il pulsante OK evidenziato.

Combinare i viaggi e i dati sugli sconti

Il passaggio successivo consiste nel combinare entrambe le tabelle in una singola tabella con lo sconto che deve essere applicato al viaggio e il totale rettificato.

  1. Prima di tutto, attivare o disattivare il pulsante Visualizzazione diagramma in basso a destra della finestra, in modo da visualizzare entrambe le query.

    Screenshot showing the Diagram view toggle button with both queries created in this tutorial displayed.Screenshot che mostra il pulsante per attivare la Visualizzazione diagramma, con entrambe le query create in questo tutorial visualizzate.

  2. Selezionare la query di dati originale (in questo esempio denominata Bronze) e nella scheda Home selezionare il menu Combina e scegliere Unisci query, quindi Unire query come nuovo.

    Una schermata che mostra le query di unione come nuova opzione per la query nyc_taxi.Una schermata che mostra le query di unione come nuova opzione per la query nyc_taxi.

  3. Nella finestra di dialogo Unione selezionare una Left outer merge, quindi selezionare Generated-NYC-Taxi-Green-Discounts nel menu a discesa 'Right table for merge' e quindi selezionare l'icona "lampadina" in alto a destra della finestra di dialogo per visualizzare il mapping consigliato delle colonne tra le due tabelle.

    Screenshot che mostra la configurazione della finestra di dialogo Merge con i mapping delle colonne suggeriti visualizzati.Screenshot che mostra la configurazione della finestra di dialogo Merge con i mapping delle colonne suggeriti visualizzati.

    Scegliere il mapping suggerito per eseguire il mapping delle colonne VendorID e date di entrambe le tabelle. Quando entrambi i mapping vengono aggiunti, le intestazioni di colonna corrispondenti vengono evidenziate in ogni tabella.

  4. Viene visualizzato un messaggio che chiede di consentire la combinazione di dati da più origini dati per visualizzare i risultati. Nella finestra di dialogo Unisci, selezionare OK.

    Screenshot che mostra la richiesta di approvare l'unione dei dati provenienti da più fonti, con il pulsante OK evidenziato.

  5. Nell'area della tabella verrà inizialmente visualizzato un avviso che indica che le informazioni sono necessarie sulla privacy dei dati. Selezionare Continua per risolvere l'avviso.

    Screenshot showing the warning about combining data from multiple data sources with the Continue button highlighted.Screenshot che mostra l'avviso sulla combinazione di dati da più fonti con il pulsante Continua evidenziato.

  6. Per questa esercitazione, selezionare Ignora controlli dei livelli di privacy per questo documento, poiché si tratta di dati di esempio che non contengono informazioni riservate. Per le origini dati proprie, impostare i livelli di privacy appropriati per proteggere i dati sensibili.

    Screenshot che mostra la finestra di dialogo del livello di privacy con l'opzione Ignora livelli di privacy selezionata.

  7. Seleziona Salva.

  8. Si noti che è stata creata una query nuova nella visualizzazione Diagramma che mostra il rapporto della nuova query di unione con le due query create in precedenza. Esaminando il riquadro della tabella dell'editor, scorri verso destra dell'elenco delle colonne della query di unione per vedere che è presente una nuova colonna con valori di tabella. Si tratta della colonna "Generated NYC Taxi-Green-Discounts" e il relativo tipo è [Table]. Nell'intestazione di colonna è presente un'icona con due frecce che si trovano in direzioni opposte, consentendo di selezionare le colonne dalla tabella. Deselezionare tutte le colonne ad eccezione di Sconto e quindi selezionare OK.

    Screenshot showing the merged query with the column selection menu displayed for the newly generated column Generated-NYC-Taxi-Green-Discounts.Screenshot che mostra la query unita con il menu di selezione delle colonne visualizzato per la colonna generata di recente Generated-NYC-Taxi-Green-Discount.

  9. Con il valore di sconto ora a livello di riga, è possibile creare una nuova colonna per calcolare l'importo totale dopo lo sconto. A tale scopo, selezionare la scheda Aggiungi colonna nella parte superiore dell'editor e scegliere Colonna personalizzata dal gruppo Generale.

    Screenshot che mostra il pulsante Aggiungi colonna personalizzata evidenziato nella sezione Generale della scheda Aggiungi colonna.

  10. Nella finestra di dialogo Colonna personalizzata è possibile usare il linguaggio della formula di Power Query (noto anche come M) per definire la modalità di calcolo della nuova colonna. Immettere TotalAfterDiscount per il Nome colonna nuova, selezionare Valuta per il Tipo di dati e fornire l'espressione M seguente per la Formula colonna personalizzata:

    <em>se [totalAmount] < 0 allora [totalAmount] * ( 1 - [Discount] ) altrimenti [totalAmount]</em>

    Quindi, seleziona OK.

    Screenshot che mostra la schermata di configurazione della colonna personalizzata con evidenziati il nome della nuova colonna, il tipo di dati e la formula della colonna personalizzata.

  11. Selezionare la colonna TotalAfterDiscount appena creata e quindi selezionare la scheda Trasforma nella parte superiore della finestra dell'editor. Nel gruppo Colonna numero, selezionare l'elenco a discesa Arrotondamento e quindi scegliere Arrotonda....

    Screenshot che mostra l'opzione Round... nella scheda Trasforma della finestra dell'editor.Screenshot che mostra l'opzione Round... nella scheda Trasforma della finestra dell'editor.

  12. Nella finestra di dialogo Arrotondamento, immettere 2 per il numero di posizioni decimali e quindi selezionare OK.

    Screenshot showing the Round dialog with 2 for the number of decimal places and the OK button highlighted.Screenshot che mostra la finestra di dialogo Arrotondamento con 2 per il numero di posizioni decimali e il pulsante OK evidenziato.

  13. Modificare il tipo di dati di IpepPickupDatetime da Data a Data/Ora.

    Screenshot showing the selection of the Date/Time data type for the IpepPickupDatetime column.Screenshot che mostra la selezione del tipo di dati Data/Ora per la colonna IpepPickupDatetime.

  14. Espandi infine il riquadro Impostazioni query dal lato destro dell'editor, se non è già espanso, e rinomina la query da Unisci a Output.

    Screenshot showing the renaming of the query from Merge to Output.Schermata che mostra il cambiamento del nome della query da Unisci a Output.

Caricare la query di output in una tabella nella Lakehouse

Con la query di output ora completamente preparata e con i dati pronti per l'output, è possibile definire la destinazione di output per la query.

  1. Selezionare la query di unione Output creata in precedenza. Selezionare quindi la scheda Home nell'editor e Aggiungi destinazione dati dal raggruppamento Query per selezionare una destinazione Lakehouse.

    Screenshot showing the Add data destination button with Lakehouse highlighted.Screenshot che mostra il pulsante "Aggiungi destinazione dati" con Lakehouse messo in evidenza.

  2. Nella finestra di dialogo Connetti alla destinazione dati, la tua connessione dovrebbe essere già selezionata. Selezionare Avanti per continuare.

  3. Nella finestra di dialogo Scegli destinazione passare al Lakehouse in cui si desidera caricare i dati e assegnare il nome alla nuova tabella nyc_taxi_with_discounts, quindi selezionare nuovamente Avanti.

    Screenshot showing the Choose destination target dialog with Table name nyc_taxi_with_discounts.Screenshot che mostra la finestra di dialogo Scegli destinazione target con nome tabella nyc_taxi_with_discounts.

  4. Nella finestra di dialogo Scegli impostazioni di destinazione è possibile usare le impostazioni automatiche oppure deselezionare le impostazioni automatiche e lasciare il metodo di aggiornamento sostituisci predefinito, verificare che le colonne siano mappate correttamente e selezionare Salva impostazioni.

    Screenshot che mostra la finestra di dialogo "Scegli impostazioni di destinazione" con il pulsante "Salva Impostazioni" evidenziato.

  5. Nella finestra dell'editor principale verificare di visualizzare la destinazione di output nel riquadro Impostazioni query per la tabella Output in Destinazione dati e quindi selezionare Salva*.

    Importante

    Quando si crea il primo Dataflow Gen2 in un'area di lavoro, viene eseguito il provisioning degli elementi Lakehouse e Warehouse insieme ai relativi modelli semantici ed endpoint di analisi SQL correlati. Questi elementi sono condivisi da tutti i flussi di dati nell'area di lavoro e sono necessari per il funzionamento di Dataflow Gen2, non devono essere eliminati e non devono essere usati direttamente dagli utenti. Gli elementi sono un dettaglio di implementazione di Dataflow Gen2. Gli elementi non sono visibili nell'area di lavoro, ma potrebbero essere accessibili in altre esperienze, ad esempio le esperienze Notebook, SQL-endpoint, Lakehouse e Warehouse. È possibile riconoscere gli elementi in base al prefisso nel nome. Il prefisso degli elementi è "DataflowsStaging".

  6. (Facoltativo) Nella pagina dell'area di lavoro è possibile rinominare il flusso di dati selezionando i puntini di sospensione a destra del nome del flusso di dati visualizzato dopo aver selezionato la riga e scegliendo Impostazioni. In questo esempio, lo rinominiamo in nyc_taxi_with_discounts.

    Screenshot showing the Properties option selected on the menu for a dataflow where it can be renamed.Screenshot che mostra l'opzione Proprietà selezionata nel menu per un flusso di dati in cui può essere rinominata.

  7. Selezionare l'icona di aggiornamento per il flusso di dati sotto l'ellissi Altre opzioni e, al termine, verrà visualizzata la nuova tabella Lakehouse creata e configurata nelle impostazioni destinazione dati.

    Screenshot che mostra la selezione del pulsante aggiorna per aggiornare il flusso di dati.

  8. Controlla il Lakehouse per visualizzare la nuova tabella caricata lì.

Passo successivo

Passare alla sezione successiva per integrare la pipeline di dati.