Esercitazione: Scrivere in una tabella Delta archiviata in Azure Data Lake Archiviazione Gen2
Questa esercitazione illustra come creare un processo di Analisi di flusso per scrivere in una tabella Delta in Azure Data Lake Archiviazione Gen2. In questa esercitazione apprenderai a:
- Distribuire un generatore di eventi che invia dati di esempio all'hub eventi
- Creare un processo di Analisi di flusso.
- Configurare Azure Data Lake Archiviazione Gen2 con una tabella delta
- Eseguire il processo di Analisi di flusso
Prerequisiti
Prima di iniziare, completare i passaggi seguenti:
- Se non hai una sottoscrizione di Azure, crea un account gratuito.
- Distribuire il generatore di eventi TollApp in Azure, usare questo collegamento per distribuire il modello di Azure TollApp. Impostare il parametro 'interval' su 1. Creare e usare un nuovo gruppo di risorse per questo passaggio.
- Creare un account Data Lake Archiviazione Gen2.
Creare un processo di Analisi di flusso.
Accedere al portale di Azure.
Scegliere Tutti i servizi dal menu a sinistra.
Spostare il mouse sui processi di Analisi di flusso nella sezione Analisi e selezionare + (più).
Selezionare Crea risorsa nell'angolo superiore sinistro del portale di Azure.
Selezionare Analisi>Processo di Analisi di flusso nell'elenco risultati.
Nella pagina Nuovo processo di Analisi di flusso seguire questa procedura:
- Per Sottoscrizione selezionare la sottoscrizione di Azure.
- Per Gruppo di risorse selezionare la stessa risorsa usata in precedenza nella distribuzione TollApp.
- In Nome immettere un nome per il processo. Il nome del processo di Analisi di flusso può contenere solo caratteri alfanumerici, trattini e caratteri di sottolineatura e deve avere una lunghezza compresa tra 3 e 63 caratteri.
- Per Ambiente di hosting verificare che Cloud sia selezionato.
- Per Unità di flusso selezionare 1. Le unità di streaming rappresentano le risorse di calcolo necessarie per eseguire un processo. Per informazioni sul ridimensionamento delle unità di streaming, vedere l'articolo Informazioni sulle unità di streaming.
Selezionare Rivedi e crea nella parte inferiore della pagina.
Nella pagina Rivedi e crea rivedere le impostazioni e selezionare Crea per creare una pagina di Analisi di flusso.
Nella pagina di distribuzione selezionare Vai alla risorsa per passare alla pagina del processo di Analisi di flusso.
Configurare l'input del processo
Il passaggio successivo consiste nel definire un'origine di input per il processo per leggere i dati usando l'hub eventi creato nella distribuzione TollApp.
Trovare il processo di Analisi di flusso creato nella sezione precedente.
Nella sezione Topologia processo del processo di Analisi di flusso selezionare Input.
Selezionare + Aggiungi input e Hub eventi.
Compilare il modulo di input con i valori seguenti creati tramite il modello di Azure TollApp:
Per Alias di input immettere entrystream.
Scegliere Seleziona hub eventi dalle sottoscrizioni.
Per Sottoscrizione selezionare la sottoscrizione di Azure.
Per Spazio dei nomi dell'hub eventi selezionare lo spazio dei nomi dell'hub eventi creato nella sezione precedente.
Usare le opzioni predefinite per le restanti impostazioni e selezionare Salva.
Configurare l'output del processo
Il passaggio successivo consiste nel definire un sink di output in cui il processo può scrivere dati. In questa esercitazione si scrive l'output in una tabella Delta in Azure Data Lake Archiviazione Gen2.
Nella sezione Topologia processo del processo di Analisi di flusso selezionare l'opzione Output.
Selezionare + Aggiungi archiviazione BLOB di output>/ADLS Gen2.
Compilare il modulo di output con i dettagli seguenti e selezionare Salva:
Per Alias di output immettere DeltaOutput.
Scegliere Seleziona archiviazione BLOB/ADLS Gen2 dalle sottoscrizioni.
Per Sottoscrizione selezionare la sottoscrizione di Azure.
Per Archiviazione account, scegliere l'account ADLS Gen2 (quello che inizia con tollapp) creato.
Per contenitore selezionare Crea nuovo e specificare un nome di contenitore univoco.
Per Formato di serializzazione eventi selezionare Delta Lake. Anche se Delta Lake è elencato come una delle opzioni qui, non è un formato di dati. Delta Lake usa file Parquet con controllo delle versioni per archiviare i dati. Per altre informazioni su Delta Lake.
Per Percorso tabella Delta immettere la cartella dell'esercitazione/la tabella delta.
Usare le opzioni predefinite per le restanti impostazioni e selezionare Salva.
Creare query
A questo punto il processo di Analisi di flusso è configurato per la lettura di un flusso di dati in ingresso. Il passaggio successivo consiste nel creare una query che analizzi i dati in tempo reale. Le query usano un linguaggio simile a SQL che include alcune estensioni specifiche di Analisi di flusso.
Selezionare ora Query in Topologia processo nel menu a sinistra.
Immettere la query seguente nella finestra di query. In questo esempio la query legge i dati da Hub eventi e copia i valori selezionati in una tabella Delta in ADLS Gen2.
SELECT State, CarModel.Make, TollAmount INTO DeltaOutput FROM EntryStream TIMESTAMP BY EntryTime
Selezionare Salva query sulla barra degli strumenti.
Avviare il processo di Analisi di flusso e controllare l'output
Tornare alla pagina di panoramica del processo nella portale di Azure e selezionare Avvia.
Nella pagina Avvia processo verificare che l'opzione Ora sia selezionata per Ora di inizio dell'output del processo e quindi selezionare Avvia nella parte inferiore della pagina.
Dopo alcuni minuti, nel portale trovare l'account di archiviazione e il contenitore configurato come output per il processo. È ora possibile visualizzare la tabella delta nella cartella specificata nel contenitore. L'avvio del processo richiede alcuni minuti per la prima volta, dopo l'avvio, continuerà a essere eseguito man mano che arrivano i dati.
Pulire le risorse
Quando non sono più necessari, eliminare il gruppo di risorse, il processo di Analisi di flusso e tutte le risorse correlate. Eliminando il processo si evita di pagare per le unità di streaming usate dal processo. Se si prevede di usare il processo in futuro, è possibile arrestarlo e riavviarlo in un secondo momento, quando è necessario. Se non si intende continuare a usare questo processo, eliminare tutte le risorse create da questa esercitazione attenendosi alla procedura seguente:
- Scegliere Gruppi di risorse dal menu a sinistra del portale di Azure e quindi selezionare il nome della risorsa creata.
- Nella pagina del gruppo di risorse selezionare Elimina, digitare il nome della risorsa da eliminare nella casella di testo e quindi selezionare Elimina.
Passaggi successivi
In questa esercitazione è stato creato un semplice processo di Analisi di flusso, sono stati filtrati i dati in ingresso e sono stati scritti i risultati in una tabella Delta nell'account ADLS Gen2. Per altre informazioni sui processi di Analisi di flusso: