Guida introduttiva: Creare il primo flusso di dati per ottenere e trasformare i dati

I flussi di dati sono una tecnologia self-service, basata sul cloud e di preparazione dei dati. In questo articolo si crea il primo flusso di dati, si ottengono i dati per il flusso di dati, quindi si trasformano i dati e si pubblica il flusso di dati.

Prerequisiti

Prima di iniziare sono necessari i prerequisiti seguenti:

Creazione di un flusso di dati

In questa sezione si sta creando il primo flusso di dati.

  1. Passare all'esperienza data factory .

    Screenshot with the data factory experience emphasized.

  2. Passare all'area di lavoro di Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  3. Selezionare Nuovo e quindi Selezionare Flusso di dati Gen2.

    Screenshot with the Dataflow Gen2 selection emphasized.

Recupera dati

Si otterrà un po' di dati. In questo esempio si ottengono dati da un servizio OData. Usare la procedura seguente per ottenere i dati nel flusso di dati.

  1. Nell'editor del flusso di dati selezionare Recupera dati e quindi selezionare Altro.

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. In Scegli origine dati selezionare Visualizza altro.

    Screenshot of Get data source with View more emphasized.

  3. In Nuova origine selezionare Altro>OData come origine dati.

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. Immettere l'URL https://services.odata.org/v4/northwind/northwind.svc/e quindi selezionare Avanti.

    Screenshot of the OData data source where you enter the data URL.

  5. Selezionare le tabelle Ordini e clienti e quindi crea.

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

Per altre informazioni sull'esperienza e sulle funzionalità di recupero dei dati, vedere Panoramica di Recupero dei dati.

Applicare trasformazioni e pubblicare

I dati sono stati caricati nel primo flusso di dati, congratulazioni. È ora possibile applicare un paio di trasformazioni per inserire questi dati nella forma desiderata.

Questa attività verrà eseguita dall'editor di Power Query. È possibile trovare una panoramica dettagliata dell'editor di Power Query nell'interfaccia utente di Power Query.

Per applicare trasformazioni e pubblicare, seguire questa procedura:

  1. Assicurarsi che gli strumenti di profilatura dati siano abilitati passando a Opzioni globali opzioni> home.>

    Screenshot of Global options with the Column profile selections emphasized.

    Assicurarsi inoltre di aver abilitato la visualizzazione diagramma usando le opzioni nella scheda Visualizza della barra multifunzione dell'editor di Power Query o selezionando l'icona della visualizzazione diagramma sul lato inferiore destro della finestra di Power Query.

    Screenshot of the overall look of Power Query diagram view.

  2. Nella tabella Ordini si calcola il numero totale di ordini per cliente. Per raggiungere questo obiettivo, selezionare la colonna CustomerID nell'anteprima dei dati e quindi selezionare Raggruppa per nella scheda Trasforma della barra multifunzione.

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. Si esegue un conteggio delle righe come aggregazione all'interno di Group By. Per altre informazioni sulle funzionalità Group By , vedere Raggruppamento o riepilogo delle righe.

    Screenshot of Group by, with the Count rows operation selected.

  4. Dopo il raggruppamento dei dati nella tabella Orders, si otterrà una tabella a due colonne con CustomerID e Count come colonne.

    Screenshot of the two column table.

  5. Successivamente, si vogliono combinare i dati della tabella Customers con il conteggio degli ordini per cliente. Per combinare i dati, selezionare la query Clienti nella visualizzazione Diagramma e usare il menu "⋮" per accedere alle query di merge come nuova trasformazione.

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. Configurare l'operazione di merge come illustrato nello screenshot seguente selezionando CustomerID come colonna corrispondente in entrambe le tabelle. Quindi scegliere OK.

    Screenshot of the Merge window.

    Screenshot della finestra Merge con la tabella Left per merge impostata sulla tabella Customers e la tabella Right per merge impostata sulla tabella Orders. La colonna CustomerID è selezionata sia per le tabelle Customers che Orders. Inoltre, join kind è impostato su Left outer. Tutte le altre selezioni vengono impostate sul valore predefinito.

  7. Dopo aver eseguito le query di merge come nuova operazione, si ottiene una nuova query con tutte le colonne della tabella Customers e una colonna con dati annidati dalla tabella Orders.

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. In questo esempio si è interessati solo a un subset di colonne nella tabella Customers. È possibile selezionare tali colonne usando la visualizzazione schema. Abilitare la visualizzazione schema all'interno dell'interruttore nell'angolo inferiore destro dell'editor di flussi di dati.

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. La vista schema fornisce una visualizzazione incentrata sulle informazioni sullo schema di una tabella, inclusi i nomi delle colonne e i tipi di dati. La visualizzazione schema include un set di strumenti dello schema disponibili tramite una scheda della barra multifunzione contestuale. In questo scenario si selezionano le colonne CustomerID, CompanyName e Orders (2), quindi selezionare il pulsante Rimuovi colonne e quindi selezionare Rimuovi altre colonne nella scheda Strumenti schema.

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. La colonna Orders (2) contiene informazioni annidate risultanti dall'operazione di unione eseguita alcuni passaggi fa. Tornare ora alla visualizzazione dati selezionando il pulsante Mostra visualizzazione dati accanto al pulsante Mostra visualizzazione schema nell'angolo inferiore destro dell'interfaccia utente. Usare quindi la trasformazione Espandi colonna nell'intestazione di colonna Orders (2) per selezionare la colonna Conteggio .

    Screenshot for using data view.

  11. Come operazione finale, si vuole classificare i clienti in base al numero di ordini. Selezionare la colonna Conteggio e quindi selezionare il pulsante Classifica colonna nella scheda Aggiungi colonna sulla barra multifunzione.

    Screenshot of the dataflows editor with the Count column selected.

  12. Mantenere le impostazioni predefinite in Colonna classificazione. Selezionare quindi OK per applicare questa trasformazione.

    Screenshot of the Rank window with all default settings displayed.

  13. Rinominare ora la query risultante come Clienti classificati usando il riquadro Impostazioni query sul lato destro della schermata.

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. La trasformazione e la combinazione dei dati sono state completate. Quindi, è ora possibile configurare le impostazioni di destinazione di output. Selezionare Scegli destinazione dati nella parte inferiore del riquadro Impostazioni query.

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. Per questo passaggio, è possibile configurare un output in lakehouse se ne è disponibile uno o ignorare questo passaggio, se non lo si è. In questa esperienza è possibile configurare il lakehouse di destinazione e la tabella per i risultati della query, oltre al metodo di aggiornamento (Append o Replace).

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. Il flusso di dati è ora pronto per la pubblicazione. Esaminare le query nella visualizzazione diagramma e quindi selezionare Pubblica.

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    Ora si torna all'area di lavoro. Un'icona di selezione accanto al nome del flusso di dati indica che la pubblicazione è in corso. Al termine della pubblicazione, il flusso di dati è pronto per l'aggiornamento.

    Importante

    Quando viene creato il primo dataflow Gen2 in un'area di lavoro, viene eseguito il provisioning degli elementi Lakehouse e Warehouse insieme ai relativi modelli semantici e endpoint di analisi SQL correlati. Questi elementi sono condivisi da tutti i flussi di dati nell'area di lavoro e sono necessari per il funzionamento di Dataflow Gen2, non devono essere eliminati e non devono essere usati direttamente dagli utenti. Gli elementi sono un dettaglio di implementazione di Dataflow Gen2. Gli elementi non sono visibili nell'area di lavoro, ma potrebbero essere accessibili in altre esperienze, ad esempio notebook, endpoint di analisi SQL, Lakehouse e Warehouse. È possibile riconoscere gli elementi in base al prefisso nel nome. Il prefisso degli elementi è "Flussi di datiStaging".

  17. Nell'area di lavoro selezionare l'icona Pianifica aggiornamento .

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. Attivare l'aggiornamento pianificato, selezionare Aggiungi un'altra volta e configurare l'aggiornamento come illustrato nello screenshot seguente.

    Screenshot showing how to select another time.

    Screenshot delle opzioni di aggiornamento pianificate, con l'aggiornamento pianificato attivato, la frequenza di aggiornamento impostata su Giornaliero, il fuso orario impostato su ora universale coordinata e l'ora impostata su 4:00 AM. Il pulsante su, la selezione Aggiungi un'altra volta, il proprietario del flusso di dati e il pulsante Applica sono tutti evidenziati.

Pulire le risorse

Se non si intende continuare a usare questo flusso di dati, eliminare il flusso di dati seguendo questa procedura:

  1. Passare all'area di lavoro di Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  2. Selezionare i puntini di sospensione verticali accanto al nome del flusso di dati e quindi selezionare Elimina.

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. Selezionare Elimina per confermare l'eliminazione del flusso di dati.

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

Il flusso di dati in questo esempio illustra come caricare e trasformare i dati in Dataflow Gen2. Contenuto del modulo:

  • Creare un flusso di dati Gen2.
  • Trasformare i dati.
  • Configurare le impostazioni di destinazione per i dati trasformati.
  • Eseguire e pianificare la pipeline di dati.

Passare all'articolo successivo per informazioni su come creare la prima pipeline di dati.