Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Il completamento di questo modulo richiede circa 25 minuti. Si crea un flusso di dati, si applicano trasformazioni e si spostano i dati non elaborati dalla tabella del livello dati bronze in una tabella del livello dati gold .
Con i dati non elaborati caricati nella tabella bronze Lakehouse dell'ultimo modulo, è ora possibile arricchiscerli. Combinerai con un'altra tabella che contiene sconti per ogni fornitore e i loro viaggi durante un determinato giorno. Quindi, questa tabella finale gold Lakehouse viene caricata ed è pronta per l'uso.
I passaggi generali del flusso di dati sono:
- Ottenere dati non elaborati dalla tabella Lakehouse creata dall'attività di copia nel modulo 1: Creare una pipeline con Data Factory.
- Trasformare i dati importati dalla tabella Lakehouse.
- Connettersi a un file CSV contenente i dati degli sconti.
- Trasformare i dati degli sconti.
- Combinare viaggi e dati sugli sconti.
- Caricare la query di output nella tabella Gold Lakehouse.
Prerequisiti
Modulo 1 di questa serie di esercitazioni: Creare una pipeline con Data Factory
Ottenere dati da una tabella Lakehouse
Nella barra laterale selezionare l'area di lavoro, selezionare Nuovo elementoe quindi Dataflow Gen2 per creare un nuovo flusso di dati Gen2.
Screenshot che mostra la pagina di creazione di Fabric con il pulsante Dataflow Gen2 evidenziato.
Dal nuovo menu del flusso di dati selezionare Recupera dati e quindi Altro….
Screenshot che mostra il menu Flusso di dati con il pulsante Ottieni dati evidenziato e l'opzione Altro... evidenziata nel relativo menu.
Cerca e seleziona il connettore Lakehouse.
Screenshot che mostra la selezione dell'origine dati Lakehouse dal menu Seleziona origine dati.
Viene visualizzata la finestra di dialogo Connetti all'origine dati e viene creata automaticamente una nuova connessione in base all'utente attualmente registrato. Seleziona Avanti.
Screenshot che mostra la configurazione delle impostazioni dell'origine dati per il nuovo Lakehouse con l'utente connesso corrente e il pulsante Avanti selezionato.
Viene visualizzata la finestra di dialogo Scegli dati. Usare il pannello di navigazione per trovare il Lakehouse creato per la destinazione nel modulo precedente e selezionare la tabella dati Tutorial_Lakehouse. Successivamente, seleziona Crea.
(Facoltativo) Dopo aver popolato l'area di disegno con i dati, è possibile impostare le informazioni sul profilo di colonna, in quanto ciò è utile per la profilatura dei dati. È possibile applicare la trasformazione corretta e impostare come destinazione i valori dei dati corretti in base a esso.
A tale scopo, selezionare Opzioni nel riquadro della barra multifunzione, quindi selezionare le prime tre opzioni in Profilocolonna e quindi selezionare OK.
Screenshot che mostra la selezione delle opzioni delle colonne per i tuoi dati.
Trasformare i dati importati da Lakehouse
Selezionare l'icona del tipo di dati nell'intestazione della colonna della seconda colonna, IpepPickupDatetime, per visualizzare un menu a tendina e selezionare il tipo di dati dal menu per convertire la colonna dal tipo Data/Ora a Data.
Screenshot che mostra la selezione del tipo di dati Date per la colonna IpepPickupDatetime.
(Facoltativo) Nella scheda Home della barra multifunzione, seleziona l'opzione Scegli colonne dal gruppo Gestisci colonne.
Screenshot che mostra il pulsante "Scegli colonne" nella scheda "Home" dell'editor del flusso di dati.
(Facoltativo) Nella finestra di dialogo Scegli colonne deselezionare alcune colonne elencate qui, quindi selezionare OK.
- lpepDropoffDatetime
- puLocationId
- doLocationId
- latitudineDiRitiro
- Longitudine di scarico
- rateCodeID
Screenshot che mostra la finestra di dialogo Scegli colonne con le colonne identificate deselezionate.
Selezionare il filtro e il menu a discesa della colonna storeAndFwdFlag. (Se viene visualizzato un avviso L'elenco potrebbe essere incompleto, selezionare Carica altro per visualizzare tutti i dati.)
Schermata che mostra la finestra di dialogo per filtrare e ordinare la colonna.
Selezionare "Y" per visualizzare solo le righe in cui è stato applicato uno sconto e quindi selezionare OK.
Screenshot che mostra i valori filtrati con solo 'Y' selezionato.
Selezionare il menu a discesa per l'ordine e il filtro della colonna IpepPickupDatetime, quindi selezionare Filtri data e scegliere il filtro Intervallo... disponibile per i tipi Data e Data/Ora.
Nella finestra di dialogo Filtra righe selezionare le date tra il 1° gennaio 2015 e il 31 gennaio 2015, quindi selezionare OK.
Screenshot che mostra la selezione delle date a gennaio 2015.
Connettersi a un file CSV contenente i dati di sconto
Con i dati dei viaggi a disposizione, si vogliono caricare i dati che contengono i rispettivi sconti per ogni giorno e VendorID e preparare i dati prima di combinarli con i dati delle corse.
Nella scheda Home del menu dell'editor del flusso di dati selezionare l'opzione Recupera dati e quindi scegliere Testo/CSV.
Screenshot che mostra come selezionare il menu Ottieni dati dalla scheda Home, con Testo/CSV evidenziato.
Nella finestra di dialogo Connetti all'origine dati, specificare i dettagli seguenti:
- Percorso file o URLhttps://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
- Tipo di autenticazione: Anonima
Quindi seleziona Avanti.
Screenshot che mostra le impostazioni di Testo/CSV per la connessione.
Nella finestra di dialogo Anteprima dati file selezionare Crea.
Screenshot che mostra la finestra di dialogo Anteprima dati file con il pulsante Crea evidenziato.
Trasformare i dati dello sconto
Esaminando i dati, sembra che le intestazioni siano nella prima riga. Imposta come intestazioni selezionando il menu di scelta rapida della tabella nell'angolo in alto a sinistra dell'area della griglia di anteprima per selezionare Usa prima riga come intestazioni.
Screenshot che mostra la selezione dell'opzione Usa la prima riga come intestazione dal menu di scelta rapida della tabella.
Nota
Dopo aver promosso le intestazioni, puoi vedere un nuovo passaggio aggiunto nel riquadro Passaggi applicati nella parte superiore dell'editor del flusso di dati, relativo ai tipi di dati delle colonne.
Fare clic con il pulsante destro del mouse sulla colonna VendorID e, dal menu di scelta rapida visualizzato, selezionare l'opzione Annulla pivot di altre colonne. In questo modo è possibile trasformare le colonne in coppie attributo-valore, in cui le colonne diventano righe.
Screenshot che mostra il menu di scelta rapida per la colonna VendorID con la selezione Unpivot di altre colonne evidenziata.
Con la tabella senza pivot, rinominare le colonne Attributo e Valore facendo doppio clic su di esse e impostando Attributo su Data e Valore su Sconto.
Screenshot che mostra le colonne della tabella dopo la ridenominazione di Attributo in Data e Valore in Sconto.
Modificare il tipo di dati della colonna Data selezionando il menu tipo di dati a sinistra del nome della colonna e scegliendo Data.
Screenshot che mostra la selezione del tipo di dati Date per la colonna Date.
Selezionare la colonna Sconto e quindi selezionare la scheda Trasforma nel menu. Selezionare Colonna Numero, quindi selezionare Trasformazioni numeriche standard dal sottomenu e scegliere Dividi.
Nella finestra di dialogo Dividi immettere il valore 100.
Screenshot che mostra la finestra di dialogo Divide con il valore 100 inserito e il pulsante OK evidenziato.
Combinare i viaggi e i dati sugli sconti
Il passaggio successivo consiste nel combinare entrambe le tabelle in una singola tabella con lo sconto che deve essere applicato al viaggio e il totale rettificato.
Prima di tutto, attivare o disattivare il pulsante Visualizzazione diagramma in basso a destra della finestra, in modo da visualizzare entrambe le query.
Selezionare la query di dati originale (in questo esempio denominata Bronze) e nella scheda Home selezionare il menu Combina e scegliere Unisci query, quindi Unire query come nuovo.
Una schermata che mostra le query di unione come nuova opzione per la query nyc_taxi.
Nella finestra di dialogo Unione selezionare una Left outer merge, quindi selezionare Generated-NYC-Taxi-Green-Discounts nel menu a discesa 'Right table for merge' e quindi selezionare l'icona "lampadina" in alto a destra della finestra di dialogo per visualizzare il mapping consigliato delle colonne tra le due tabelle.
Scegliere il mapping suggerito per eseguire il mapping delle colonne VendorID e date di entrambe le tabelle. Quando entrambi i mapping vengono aggiunti, le intestazioni di colonna corrispondenti vengono evidenziate in ogni tabella.
Viene visualizzato un messaggio che chiede di consentire la combinazione di dati da più origini dati per visualizzare i risultati. Nella finestra di dialogo Unisci, selezionare OK.
Screenshot che mostra la richiesta di approvare l'unione dei dati provenienti da più fonti, con il pulsante OK evidenziato.
Nell'area della tabella verrà inizialmente visualizzato un avviso che indica che le informazioni sono necessarie sulla privacy dei dati. Selezionare Continua per risolvere l'avviso.
Screenshot che mostra l'avviso sulla combinazione di dati da più fonti con il pulsante Continua evidenziato.
Per questa esercitazione, selezionare Ignora controlli dei livelli di privacy per questo documento, poiché si tratta di dati di esempio che non contengono informazioni riservate. Per le origini dati proprie, impostare i livelli di privacy appropriati per proteggere i dati sensibili.
Seleziona Salva.
Si noti che è stata creata una query nuova nella visualizzazione Diagramma che mostra il rapporto della nuova query di unione con le due query create in precedenza. Esaminando il riquadro della tabella dell'editor, scorri verso destra dell'elenco delle colonne della query di unione per vedere che è presente una nuova colonna con valori di tabella. Si tratta della colonna "Generated NYC Taxi-Green-Discounts" e il relativo tipo è [Table]. Nell'intestazione di colonna è presente un'icona con due frecce che si trovano in direzioni opposte, consentendo di selezionare le colonne dalla tabella. Deselezionare tutte le colonne ad eccezione di Sconto e quindi selezionare OK.
Con il valore di sconto ora a livello di riga, è possibile creare una nuova colonna per calcolare l'importo totale dopo lo sconto. A tale scopo, selezionare la scheda Aggiungi colonna nella parte superiore dell'editor e scegliere Colonna personalizzata dal gruppo Generale.
Screenshot che mostra il pulsante Aggiungi colonna personalizzata evidenziato nella sezione Generale della scheda Aggiungi colonna.
Nella finestra di dialogo Colonna personalizzata è possibile usare il linguaggio della formula di Power Query (noto anche come M) per definire la modalità di calcolo della nuova colonna. Immettere TotalAfterDiscount per il Nome colonna nuova, selezionare Valuta per il Tipo di dati e fornire l'espressione M seguente per la Formula colonna personalizzata:
<em> se [totalAmount] < 0 allora [totalAmount] * ( 1 - [Discount] ) altrimenti [totalAmount]</em> Quindi, seleziona OK.
Selezionare la colonna TotalAfterDiscount appena creata e quindi selezionare la scheda Trasforma nella parte superiore della finestra dell'editor. Nel gruppo Colonna numero, selezionare l'elenco a discesa Arrotondamento e quindi scegliere Arrotonda....
Screenshot che mostra l'opzione Round... nella scheda Trasforma della finestra dell'editor.
Nella finestra di dialogo Arrotondamento, immettere 2 per il numero di posizioni decimali e quindi selezionare OK.
Screenshot che mostra la finestra di dialogo Arrotondamento con 2 per il numero di posizioni decimali e il pulsante OK evidenziato.
Modificare il tipo di dati di IpepPickupDatetime da Data a Data/Ora.
Screenshot che mostra la selezione del tipo di dati Data/Ora per la colonna IpepPickupDatetime.
Espandi infine il riquadro Impostazioni query dal lato destro dell'editor, se non è già espanso, e rinomina la query da Unisci a Output.
Schermata che mostra il cambiamento del nome della query da Unisci a Output.
Caricare la query di output in una tabella nella Lakehouse
Con la query di output ora completamente preparata e con i dati pronti per l'output, è possibile definire la destinazione di output per la query.
Selezionare la query di unione Output creata in precedenza. Selezionare quindi la scheda Home nell'editor e Aggiungi destinazione dati dal raggruppamento Query per selezionare una destinazione Lakehouse.
Screenshot che mostra il pulsante "Aggiungi destinazione dati" con Lakehouse messo in evidenza.
Nella finestra di dialogo Connetti alla destinazione dati, la tua connessione dovrebbe essere già selezionata. Selezionare Avanti per continuare.
Nella finestra di dialogo Scegli destinazione passare al Lakehouse in cui si desidera caricare i dati e assegnare il nome alla nuova tabella nyc_taxi_with_discounts, quindi selezionare nuovamente Avanti.
Screenshot che mostra la finestra di dialogo Scegli destinazione target con nome tabella nyc_taxi_with_discounts.
Nella finestra di dialogo Scegli impostazioni di destinazione è possibile usare le impostazioni automatiche oppure deselezionare le impostazioni automatiche e lasciare il metodo di aggiornamento sostituisci predefinito, verificare che le colonne siano mappate correttamente e selezionare Salva impostazioni.
Screenshot che mostra la finestra di dialogo "Scegli impostazioni di destinazione" con il pulsante "Salva Impostazioni" evidenziato.
Nella finestra dell'editor principale verificare di visualizzare la destinazione di output nel riquadro Impostazioni query per la tabella Output in Destinazione dati e quindi selezionare Salva*.
Importante
Quando si crea il primo Dataflow Gen2 in un'area di lavoro, viene eseguito il provisioning degli elementi Lakehouse e Warehouse insieme ai relativi modelli semantici ed endpoint di analisi SQL correlati. Questi elementi sono condivisi da tutti i flussi di dati nell'area di lavoro e sono necessari per il funzionamento di Dataflow Gen2, non devono essere eliminati e non devono essere usati direttamente dagli utenti. Gli elementi sono un dettaglio di implementazione di Dataflow Gen2. Gli elementi non sono visibili nell'area di lavoro, ma potrebbero essere accessibili in altre esperienze, ad esempio le esperienze Notebook, SQL-endpoint, Lakehouse e Warehouse. È possibile riconoscere gli elementi in base al prefisso nel nome. Il prefisso degli elementi è "DataflowsStaging".
(Facoltativo) Nella pagina dell'area di lavoro è possibile rinominare il flusso di dati selezionando i puntini di sospensione a destra del nome del flusso di dati visualizzato dopo aver selezionato la riga e scegliendo Impostazioni. In questo esempio, lo rinominiamo in nyc_taxi_with_discounts.
Screenshot che mostra l'opzione Proprietà selezionata nel menu per un flusso di dati in cui può essere rinominata.
Selezionare l'icona di aggiornamento per il flusso di dati sotto l'ellissi Altre opzioni e, al termine, verrà visualizzata la nuova tabella Lakehouse creata e configurata nelle impostazioni destinazione dati.
Controlla il Lakehouse per visualizzare la nuova tabella caricata lì.
Passo successivo
Passare alla sezione successiva per integrare la pipeline di dati.