Acquisire dati da Hub eventi in formato Delta Lake
Questo articolo illustra come usare l'editor di codice per acquisire automaticamente i dati di streaming in Hub eventi in un account Azure Data Lake Storage Gen2 in formato Delta Lake.
Prerequisiti
- Le risorse Hub eventi di Azure e Azure Data Lake Storage Gen2 devono essere accessibili pubblicamente e non possono essere protette da un firewall o protette in un'Rete virtuale di Azure.
- I dati negli hub eventi devono essere serializzati in formato JSON, CSV o Avro.
Configurare un processo per acquisire i dati
Usare la procedura seguente per configurare un processo di Analitica Stream per acquisire i dati in Azure Data Lake Storage Gen2.
Nella portale di Azure passare all'hub eventi.
Selezionare Funzionalità>Elabora dati e selezionare Avvia nella scheda Acquisisci dati in ADLS Gen2 in formato Delta Lake.
In alternativa, selezionare Acquisizione funzionalità> e selezionare l'opzione Delta Lake in "Formato di serializzazione degli eventi di output", quindi selezionare Avvia configurazione di Acquisizione dati.
Immettere un nome per identificare il processo di Analitica Stream. Seleziona Crea.
Specificare il tipo di serializzazione dei dati in Hub eventi e il metodo di autenticazione usato dal processo per connettersi a Hub eventi. Selezionare Connetti.
Quando la connessione viene stabilita correttamente, viene visualizzato quanto riportato di seguito:
- Campi presenti nei dati di input. È possibile scegliere Aggiungi campo oppure selezionare il simbolo a tre punti accanto a un campo per rimuovere, rinominare o modificare il nome facoltativo.
- Esempio live di dati in ingresso nella tabella Anteprima dati nella vista diagramma. Viene aggiornato periodicamente. È possibile selezionare Sospendi anteprima streaming per visualizzare una visualizzazione statica dell'input di esempio.
Selezionare il riquadro Azure Data Lake Storage Gen2 per modificare la configurazione.
Nella pagina di configurazione di Azure Data Lake Storage Gen2 seguire questa procedura:
Selezionare la sottoscrizione, il nome dell'account di archiviazione e il contenitore dal menu a discesa.
Dopo aver selezionato la sottoscrizione, il metodo di autenticazione e la chiave dell'account di archiviazione devono essere compilati automaticamente.
Per il percorso della tabella Delta, viene usato per specificare la posizione e il nome della tabella Delta Lake archiviata in Azure Data Lake Storage Gen2. È possibile scegliere di usare uno o più segmenti di percorso per definire il percorso della tabella delta e il nome della tabella delta. Per altre informazioni, vedere Scrivere nella tabella Delta Lake.
Selezionare Connetti.
Quando viene stabilita la connessione, vengono visualizzati i campi presenti nei dati di output.
Selezionare Salva sulla barra dei comandi per salvare la configurazione.
Selezionare Avvia sulla barra dei comandi per avviare il flusso di streaming per acquisire i dati. Quindi nella finestra avvia flusso Analitica processo:
- Scegliere l'ora di inizio dell'output.
- Selezionare il numero di unità di streaming (SU) con cui viene eseguito il processo. SU rappresenta le risorse di calcolo allocate per eseguire un processo di Analitica Stream. Per altre informazioni, vedere Unità di streaming in Azure Stream Analitica.
Dopo aver selezionato Avvia, il processo viene eseguito entro due minuti e le metriche verranno aperte nella sezione della scheda, come illustrato nell'immagine seguente.
Il nuovo processo può essere visualizzato nella scheda Processi di Analitica Stream.
Verificare l'output
Verificare che i file parquet con formato Delta Lake vengano generati nel contenitore Azure Data Lake Storage.
Considerazioni sull'uso della funzionalità di replica geografica di Hub eventi
Hub eventi di Azure recentemente lanciato il Funzionalità replica geografica in anteprima pubblica. Questa funzionalità è diversa dalla funzionalità ripristino di emergenza geografico di Hub eventi di Azure.
Quando il tipo di failover è Forzato e la coerenza della replica è Asincrona, flusso Analitica processo non garantisce esattamente una volta l'output in un output Hub eventi di Azure.
Flusso di Azure Analitica, come producer con un output di un hub eventi, potrebbe osservare un ritardo limite nel processo durante la durata del failover e durante la limitazione da parte di Hub eventi nel caso in cui il ritardo di replica tra primario e secondario raggiunga il ritardo massimo configurato.
Azure Stream Analitica, come consumer con Hub eventi come input, potrebbe osservare un ritardo limite nel processo durante la durata del failover e potrebbe ignorare i dati o trovare dati duplicati al termine del failover.
A causa di queste avvertenze, è consigliabile riavviare il processo di Analitica Stream con l'ora di inizio appropriata subito dopo il completamento del failover di Hub eventi. Inoltre, poiché la funzionalità di replica geografica di Hub eventi è in anteprima pubblica, non è consigliabile usare questo modello per i processi di stream di produzione Analitica a questo punto. Il comportamento corrente di Stream Analitica migliorerà prima che la funzionalità di replica geografica di Hub eventi sia disponibile a livello generale e possa essere usata nei processi di produzione di Stream Analitica.
Passaggi successivi
Ora si è appreso come usare Stream Analitica nessun editor di codice per creare un processo che acquisisce i dati di Hub eventi in Azure Data Lake Storage Gen2 in formato Delta Lake. Successivamente, è possibile ottenere altre informazioni su Analitica di Azure Stream e su come monitorare il processo creato.