Acquisire dati da Hub eventi in formato Parquet

Articolo
08/16/2023

Questo articolo illustra come usare l'editor di codice per acquisire automaticamente i dati di streaming in Hub eventi in un account Azure Data Lake Storage Gen2 nel formato Parquet.

Prerequisiti

Uno spazio dei nomi Hub eventi di Azure con un hub eventi e un account Azure Data Lake Storage Gen2 con un contenitore per archiviare i dati acquisiti. Queste risorse devono essere accessibili pubblicamente e non possono essere dietro un firewall o protetto in una rete virtuale di Azure.

Se non si dispone di un hub eventi, crearne uno seguendo le istruzioni riportate di Avvio rapido: Creare un hub eventi.

Se non si dispone di un account Data Lake Storage Gen2, crearne uno seguendo le istruzioni da Crea un account di archiviazione
I dati nell'hub eventi devono essere serializzati in formato JSON, CSV o Avro. A scopo di test, selezionare Genera dati (anteprima) nel menu a sinistra, selezionare Stock data for set di dati e quindi selezionare Invia.

Configurare un processo per acquisire i dati

Usare la procedura seguente per configurare un processo di Analisi di flusso per acquisire dati in Azure Data Lake Storage Gen2.

Nella portale di Azure passare all'hub eventi.
Nel menu a sinistra selezionare Elabora dati in Funzionalità. Selezionare quindi Avvia sui dati di acquisizione in ADLS Gen2 nella scheda Formato Parquet .
Immettere un nome per il processo di Analisi di flusso e quindi selezionare Crea.
Specificare il tipo di serializzazione dei dati negli Hub eventi e il metodo Authentication usato dal processo per connettersi a Hub eventi. Selezionare Connetti.
Quando la connessione viene stabilita correttamente, viene visualizzato:
- Campi presenti nei dati di input. È possibile scegliere Aggiungi campo oppure selezionare il simbolo di tre punti accanto a un campo per rimuovere facoltativamente, rinominare o modificare il nome.
- Esempio live di dati in ingresso nella tabella Anteprima dati nella visualizzazione diagramma. Aggiorna periodicamente. È possibile selezionare Sospendi anteprima streaming per visualizzare una visualizzazione statica dell'input di esempio.
Selezionare il riquadro Azure Data Lake Storage Gen2 per modificare la configurazione.
Nella pagina di configurazione Azure Data Lake Storage Gen2 seguire questa procedura:
1. Selezionare la sottoscrizione, il nome dell'account di archiviazione e il contenitore dal menu a discesa.
2. Dopo aver selezionato la sottoscrizione, il metodo di autenticazione e la chiave dell'account di archiviazione devono essere compilati automaticamente.
3. Selezionare Parquet per il formato di serializzazione .
4. Per i BLOB di streaming, è previsto che il modello di percorso della directory sia un valore dinamico. È necessario che la data sia una parte del percorso del file per il BLOB, a cui si fa riferimento come {date}. Per informazioni sui modelli di percorso personalizzati, vedere Il partizionamento dell'output del BLOB personalizzato di Analisi di flusso di Azure.
5. Selezionare Connetti.
Quando viene stabilita la connessione, vengono visualizzati i campi presenti nei dati di output.
Selezionare Salva sulla barra dei comandi per salvare la configurazione.
Selezionare Avvia sulla barra dei comandi per avviare il flusso di streaming per acquisire i dati. Nella finestra Avvia processo di Analisi di flusso:
1. Scegliere l'ora di inizio dell'output.
2. Selezionare il piano tariffario.
3. Selezionare il numero di unità di streaming (SU) con cui viene eseguito il processo. SU rappresenta le risorse di calcolo allocate per eseguire un processo di Analisi di flusso. Per altre informazioni, vedere Unità di streaming in Analisi di flusso di Azure.
Verrà visualizzato il processo di analisi di flusso nella scheda Processo di Analisi di flusso della pagina Elabora dati per l'hub eventi.

Verificare l'output

Nella pagina Dell'istanza di Hub eventi per l'hub eventi selezionare Genera dati, selezionare Stock data for set di dati e quindi selezionare Invia per inviare alcuni dati di esempio all'hub eventi.
Verificare che i file Parquet vengano generati nel contenitore Azure Data Lake Storage.
Selezionare Elabora dati nel menu a sinistra. Passare alla scheda Processi di Analisi di flusso . Selezionare Apri metriche per monitorarla.

Ecco uno screenshot di esempio delle metriche che mostra gli eventi di input e output.

Passaggi successivi

Ora si sa come usare l'editor di analisi di flusso senza editor di codice per creare un processo che acquisisce i dati di Hub eventi per Azure Data Lake Storage Gen2 in formato Parquet. Altre informazioni su Analisi di flusso di Azure e su come monitorare il processo creato.

Condividi tramite