Condividi tramite


Acquisire dati da Hub eventi in formato Parquet

Questo articolo illustra come usare l'editor di codice per acquisire automaticamente i dati di streaming in Hub eventi in un account Azure Data Lake Storage Gen2 nel formato Parquet.

Prerequisiti

  • Uno spazio dei nomi Hub eventi di Azure con un hub eventi e un account Azure Data Lake Storage Gen2 con un contenitore per archiviare i dati acquisiti. Queste risorse devono essere accessibili pubblicamente e non possono essere dietro un firewall o protetto in una rete virtuale di Azure.

    Se non si dispone di un hub eventi, crearne uno seguendo le istruzioni riportate di Avvio rapido: Creare un hub eventi.

    Se non si dispone di un account Data Lake Storage Gen2, crearne uno seguendo le istruzioni da Crea un account di archiviazione

  • I dati nell'hub eventi devono essere serializzati in formato JSON, CSV o Avro. A scopo di test, selezionare Genera dati (anteprima) nel menu a sinistra, selezionare Stock data for set di dati e quindi selezionare Invia.

    Screenshot che mostra la pagina Genera dati per generare i dati delle scorte di esempio.

Configurare un processo per acquisire i dati

Usare la procedura seguente per configurare un processo di Analisi di flusso per acquisire dati in Azure Data Lake Storage Gen2.

  1. Nella portale di Azure passare all'hub eventi.

  2. Nel menu a sinistra selezionare Elabora dati in Funzionalità. Selezionare quindi Avvia sui dati di acquisizione in ADLS Gen2 nella scheda Formato Parquet .

    Screenshot che mostra le schede di avvio dei dati dell'Hub eventi di elaborazione.

  3. Immettere un nome per il processo di Analisi di flusso e quindi selezionare Crea.

    Screenshot che mostra la finestra Nuovo processo di Analisi di flusso in cui si immette il nome del processo.

  4. Specificare il tipo di serializzazione dei dati negli Hub eventi e il metodo Authentication usato dal processo per connettersi a Hub eventi. Selezionare Connetti.

    Screenshot che mostra la configurazione della connessione di Hub eventi.

  5. Quando la connessione viene stabilita correttamente, viene visualizzato:

    • Campi presenti nei dati di input. È possibile scegliere Aggiungi campo oppure selezionare il simbolo di tre punti accanto a un campo per rimuovere facoltativamente, rinominare o modificare il nome.

    • Esempio live di dati in ingresso nella tabella Anteprima dati nella visualizzazione diagramma. Aggiorna periodicamente. È possibile selezionare Sospendi anteprima streaming per visualizzare una visualizzazione statica dell'input di esempio.

      Screenshot che mostra i dati di esempio in Anteprima dati.

  6. Selezionare il riquadro Azure Data Lake Storage Gen2 per modificare la configurazione.

  7. Nella pagina di configurazione Azure Data Lake Storage Gen2 seguire questa procedura:

    1. Selezionare la sottoscrizione, il nome dell'account di archiviazione e il contenitore dal menu a discesa.

    2. Dopo aver selezionato la sottoscrizione, il metodo di autenticazione e la chiave dell'account di archiviazione devono essere compilati automaticamente.

    3. Selezionare Parquet per il formato di serializzazione .

      Screenshot che mostra la pagina di configurazione Data Lake Storage Gen2.

    4. Per i BLOB di streaming, è previsto che il modello di percorso della directory sia un valore dinamico. È necessario che la data sia una parte del percorso del file per il BLOB, a cui si fa riferimento come {date}. Per informazioni sui modelli di percorso personalizzati, vedere Il partizionamento dell'output del BLOB personalizzato di Analisi di flusso di Azure.

      Prima screenshot che mostra la finestra BLOB in cui si modifica la configurazione della connessione di un BLOB.

    5. Selezionare Connetti.

  8. Quando viene stabilita la connessione, vengono visualizzati i campi presenti nei dati di output.

  9. Selezionare Salva sulla barra dei comandi per salvare la configurazione.

    Screenshot che mostra il pulsante Salva selezionato sulla barra dei comandi.

  10. Selezionare Avvia sulla barra dei comandi per avviare il flusso di streaming per acquisire i dati. Nella finestra Avvia processo di Analisi di flusso:

    1. Scegliere l'ora di inizio dell'output.

    2. Selezionare il piano tariffario.

    3. Selezionare il numero di unità di streaming (SU) con cui viene eseguito il processo. SU rappresenta le risorse di calcolo allocate per eseguire un processo di Analisi di flusso. Per altre informazioni, vedere Unità di streaming in Analisi di flusso di Azure.

      Screenshot che mostra la finestra del processo Start Stream Analytics in cui è stata impostata l'ora di inizio dell'output, le unità di streaming e la gestione degli errori.

  11. Verrà visualizzato il processo di analisi di flusso nella scheda Processo di Analisi di flusso della pagina Elabora dati per l'hub eventi.

    Screenshot che mostra il processo di Analisi di flusso nella pagina Elabora dati.

Verificare l'output

  1. Nella pagina Dell'istanza di Hub eventi per l'hub eventi selezionare Genera dati, selezionare Stock data for set di dati e quindi selezionare Invia per inviare alcuni dati di esempio all'hub eventi.

  2. Verificare che i file Parquet vengano generati nel contenitore Azure Data Lake Storage.

    Screenshot che mostra i file Parquet generati nel contenitore ADLS.

  3. Selezionare Elabora dati nel menu a sinistra. Passare alla scheda Processi di Analisi di flusso . Selezionare Apri metriche per monitorarla.

    Screenshot che mostra il collegamento Apri metriche selezionato.

    Ecco uno screenshot di esempio delle metriche che mostra gli eventi di input e output.

    Screenshot che mostra le metriche del processo di Analisi di flusso.

Passaggi successivi

Ora si sa come usare l'editor di analisi di flusso senza editor di codice per creare un processo che acquisisce i dati di Hub eventi per Azure Data Lake Storage Gen2 in formato Parquet. Altre informazioni su Analisi di flusso di Azure e su come monitorare il processo creato.