Acquisire dati da Hub eventi in formato Parquet

2025-01-29

Questo articolo illustra come usare l'editor di codice per acquisire automaticamente i dati di streaming in Hub eventi in un account Azure Data Lake Storage Gen2 in formato Parquet.

Prerequisiti

Uno spazio dei nomi Hub eventi di Azure con un hub eventi e un account Azure Data Lake Storage Gen2 con un contenitore per archiviare i dati acquisiti. Queste risorse devono essere accessibili pubblicamente e non possono essere protette da un firewall o protette in una rete virtuale di Azure.

Se non si ha un hub eventi, crearne uno seguendo le istruzioni riportate in Avvio rapido: Creare un hub eventi.

Se non si ha un account Data Lake Storage Gen2, crearne uno seguendo le istruzioni riportate in Creare un account di archiviazione
I dati nell'istanza di Hub eventi (hub eventi) devono essere serializzati in formato JSON, CSV o Avro. Nella pagina Istanza di Hub eventi per l'hub eventi seguire questa procedura:
1. Nel menu a sinistra, selezionare Esplora dati.
2. Nel riquadro centrale selezionare Invia eventi.
3. Nel riquadro Invia eventi selezionare Dati titoli per Seleziona set di dati.
4. Selezionare Invia.

Configurare un processo per acquisire i dati

Usare la procedura seguente per configurare un processo di Analisi di flusso per acquisire i dati in Azure Data Lake Storage Gen2.

Nella portale di Azure passare all'hub eventi.
Nel menu a sinistra selezionare Elabora dati in Funzionalità. Selezionare quindi Avvia nella scheda Acquisisci dati in ADLS Gen2 in formato Parquet.
Immettere un nome per il processo di Analisi di flusso e quindi selezionare Crea.
Specificare il tipo di serializzazione dei dati in Hub eventi e il metodo di autenticazione usato dal processo per connettersi a Hub eventi. Per questa esercitazione, mantenere le impostazioni predefinite. Selezionare Connetti.
Quando la connessione viene stabilita correttamente, viene visualizzato quanto riportato di seguito:
- Campi presenti nei dati di input. È possibile scegliere Aggiungi campo oppure selezionare il simbolo a tre punti accanto a un campo per rimuovere, rinominare o modificare il nome facoltativo.
- Esempio live di dati in ingresso nella tabella Anteprima dati nella vista diagramma. Viene aggiornato periodicamente. È possibile selezionare Sospendi anteprima streaming per visualizzare una visualizzazione statica dell'input di esempio.
Selezionare il riquadro Azure Data Lake Storage Gen2 per modificare la configurazione.
Nella pagina di configurazione di Azure Data Lake Storage Gen2 seguire questa procedura:
1. Selezionare la sottoscrizione, il nome dell'account di archiviazione e il contenitore dal menu a discesa.
2. Dopo aver selezionato la sottoscrizione, il metodo di autenticazione e la chiave dell'account di archiviazione devono essere compilati automaticamente.
3. Selezionare Parquet per Formato di serializzazione .
4. Per i BLOB di streaming, è previsto che il modello di percorso della directory sia un valore dinamico. È necessario che la data faccia parte del percorso del file per il BLOB, a cui viene fatto riferimento come {date}. Per informazioni sui modelli di percorso personalizzati, vedere Partizionamento dell'output blob personalizzato di Analisi di flusso di Azure.
5. Seleziona Connetti
Quando viene stabilita la connessione, vengono visualizzati i campi presenti nei dati di output.
Selezionare Salva sulla barra dei comandi per salvare la configurazione.
Selezionare Avvia sulla barra dei comandi per avviare il flusso di streaming per acquisire i dati. Nella finestra Avvia processo di Analisi di flusso:
1. Scegliere l'ora di inizio dell'output.
2. Selezionare il piano tariffario.
3. Selezionare il numero di unità di streaming (SU) con cui viene eseguito il processo. SU rappresenta le risorse di calcolo allocate per eseguire un processo di Analisi di flusso. Per altre informazioni, vedere Unità di streaming in Analisi di flusso di Azure.
Il processo di Analisi di flusso dovrebbe essere visualizzato nella scheda Processo di Analisi di flusso della pagina Elabora dati per l'hub eventi.

Verificare l'output

Nella pagina dell'istanza di Hub eventi per l'hub eventi seguire questa procedura:
1. Nel menu a sinistra, selezionare Esplora dati.
2. Nel riquadro centrale selezionare Invia eventi.
3. Nel riquadro Invia eventi selezionare Dati titoli per Seleziona set di dati.
4. Selezionare Invia.
Verificare che i file Parquet vengano generati nel contenitore Azure Data Lake Storage.
Nella pagina dell'istanza di Hub eventi selezionare Elabora dati nel menu a sinistra. Passare alla scheda Processi di Analisi di flusso. Selezionare Apri metriche per monitorarla. Aggiungere metriche di input al grafico usando l'opzione Aggiungi metrica sulla barra degli strumenti. Se non vengono visualizzate le metriche nel grafico, attendere alcuni minuti e aggiornare la pagina.

Ecco uno screenshot di esempio delle metriche che mostra gli eventi di input e output.

Considerazioni sull'uso della funzionalità di replica geografica di Hub eventi

Hub eventi di Azure recentemente lanciato il Funzionalità replica geografica in anteprima pubblica. Questa funzionalità è diversa dalla funzionalità ripristino di emergenza geografico di Hub eventi di Azure.

Quando il tipo di failover è Forzato e la coerenza della replica è asincrona, il processo di Analisi di flusso non garantisce esattamente una volta l'output in un output Hub eventi di Azure.

Analisi di flusso di Azure, come producer con un output di un hub eventi, potrebbe osservare un ritardo limite nel processo durante la durata del failover e durante la limitazione da parte di Hub eventi nel caso in cui il ritardo di replica tra primario e secondario raggiunga il ritardo massimo configurato.

Analisi di flusso di Azure, come consumer con Hub eventi come input, potrebbe osservare un ritardo limite nel processo durante la durata del failover e potrebbe ignorare i dati o trovare dati duplicati al termine del failover.

A causa di queste avvertenze, è consigliabile riavviare il processo di Analisi di flusso con l'ora di inizio appropriata subito dopo il completamento del failover di Hub eventi. Inoltre, poiché la funzionalità di replica geografica di Hub eventi è in anteprima pubblica, non è consigliabile usare questo modello per i processi di Analisi di flusso di produzione a questo punto. Il comportamento corrente di Analisi di flusso migliorerà prima che la funzionalità di replica geografica di Hub eventi sia disponibile a livello generale e possa essere usata nei processi di produzione di Analisi di flusso.

Ora si è appreso come usare Analisi di flusso senza editor di codice per creare un processo che acquisisce i dati di Hub eventi in Azure Data Lake Storage Gen2 in formato Parquet. Successivamente, è possibile ottenere altre informazioni su Analisi di flusso di Azure e su come monitorare il processo creato.

Condividi tramite

Acquisire dati da Hub eventi in formato Parquet

Prerequisiti

Configurare un processo per acquisire i dati

Verificare l'output

Considerazioni sull'uso della funzionalità di replica geografica di Hub eventi

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive