Condividi tramite


Filtrare e inserire in Azure Data Lake Storage Gen2 usando stream Analitica nessun editor di codice

Questo articolo descrive come usare l'editor di codice senza creare facilmente un processo di Analitica Stream. Legge continuamente da Hub eventi, filtra i dati in ingresso e quindi scrive i risultati in modo continuo in Azure Data Lake Storage Gen2.

Prerequisiti

  • Le risorse Hub eventi di Azure devono essere accessibili pubblicamente e non essere protette da un firewall o protette in un'istanza di Azure Rete virtuale
  • I dati negli hub eventi devono essere serializzati in formato JSON, CSV o Avro.

Sviluppare un processo di Analitica Stream per filtrare e inserire dati in tempo reale

  1. Nella portale di Azure individuare e selezionare l'istanza di Hub eventi di Azure.

  2. Selezionare Funzionalità>Elabora dati e quindi selezionare Avvia nella scheda Filtro e inserimento nella scheda ADLS Gen2.
    Screenshot che mostra la scheda Filtro e inserimento nella scheda ADLS Gen2 in cui si seleziona Avvia.

  3. Immettere un nome per il processo di Analitica Stream e quindi selezionare Crea.
    Screenshot che mostra dove immettere un nome di processo.

  4. Specificare il tipo di serializzazione dei dati nella finestra hub eventi e il metodo di autenticazione che verrà usato dal processo per connettersi a Hub eventi. Selezionare Connetti.
    Screenshot che mostra l'area Hub eventi in cui si seleziona Serializzazione e metodo di autenticazione.

  5. Se la connessione viene stabilita correttamente e si dispone di flussi di dati che passano all'istanza di Hub eventi, verranno immediatamente visualizzati due elementi:

    1. Campi presenti nei dati di input. È possibile scegliere Aggiungi campo o selezionare il simbolo a tre punti accanto a ogni campo per rimuovere, rinominare o modificarne il tipo.
      Screenshot che mostra dove è possibile aggiungere un campo o rimuovere, rinominare o modificare un tipo di campo.
    2. Esempio live di dati in ingresso nella tabella di anteprima dei dati nella vista diagramma. Viene aggiornato automaticamente periodicamente. È possibile selezionare Sospendi anteprima streaming per visualizzare una visualizzazione statica dei dati di input di esempio.
      Screenshot che mostra i dati di esempio nella scheda Anteprima dati.
  6. Selezionare il riquadro Filtro . Nell'area Filtro selezionare un campo per filtrare i dati in ingresso con una condizione.
    Screenshot che mostra l'area filtro in cui è possibile aggiungere un filtro condizionale.

  7. Selezionare il riquadro Azure Data Lake Storage Gen2 . Selezionare l'account Azure Data Lake Gen2 per inviare i dati filtrati:

    1. Selezionare la sottoscrizione, il nome dell'account di archiviazione e il contenitore dal menu a discesa.
    2. Dopo aver selezionato la sottoscrizione, il metodo di autenticazione e la chiave dell'account di archiviazione devono essere compilati automaticamente. Selezionare Connetti.
      Per altre informazioni sui campi e per visualizzare esempi di modello di percorso, vedere Archiviazione BLOB e output di Azure Data Lake Gen2 da Analitica di Flusso di Azure.
      Screenshot che mostra le impostazioni di configurazione della connessione al contenitore BLOB di Azure Data Lake Gen2.
  8. Facoltativamente, selezionare Recupera anteprima statica/Aggiorna anteprima statica per visualizzare l'anteprima dei dati che verrà inserita da Azure Data Lake Storage Gen2.
    Screenshot che mostra l'opzione Anteprima dati e Aggiorna anteprima statica.

  9. Selezionare Salva e quindi avviare il processo di Analitica Stream.
    Screenshot che mostra le opzioni Di salvataggio e avvio del processo.

  10. Per avviare il processo, specificare il numero di unità di streaming (UNITÀ di streaming) con cui viene eseguito il processo. Le unità di streaming rappresentano la quantità di calcolo e memoria allocata al processo. È consigliabile iniziare con tre e quindi regolare in base alle esigenze.

  11. Dopo aver selezionato Avvia, il processo viene avviato entro due minuti e le metriche verranno aperte nella sezione della scheda seguente.

    Screenshot che mostra la finestra Avvia flusso Analitica processo.

    È possibile visualizzare il processo nella sezione Elabora dati nella scheda Flussi Analitica processi. Selezionare Aggiorna fino a visualizzare lo stato del processo come In esecuzione. Selezionare Apri metriche per monitorarlo o arrestarlo e riavviarlo in base alle esigenze.

    Screenshot che mostra la scheda Flussi Analitica processi.

    Ecco una pagina delle metriche di esempio:

    Screenshot che mostra la pagina Metriche.

Verificare i dati in Data Lake Storage

  1. Verranno visualizzati i file creati nel contenitore specificato.

    Screenshot che mostra il file generato con dati filtrati in Azure Data Lake Storage.

  2. Scaricare e aprire il file per confermare che vengono visualizzati solo i dati filtrati. Nell'esempio seguente i dati con SwitchNum sono impostati su US.

    {"RecordType":"MO","SystemIdentity":"d0","FileNum":"548","SwitchNum":"US","CallingNum":"345697969","CallingIMSI":"466921402416657","CalledNum":"012332886","CalledIMSI":"466923101048691","DateS":"20220524","TimeType":0,"CallPeriod":0,"ServiceType":"S","Transfer":0,"OutgoingTrunk":"419","MSRN":"1416960750071","callrecTime":"2022-05-25T02:07:10Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:09.5140000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
    {"RecordType":"MO","SystemIdentity":"d0","FileNum":"552","SwitchNum":"US","CallingNum":"012351287","CallingIMSI":"262021390056324","CalledNum":"012301973","CalledIMSI":"466922202613463","DateS":"20220524","TimeType":3,"CallPeriod":0,"ServiceType":"V","Transfer":0,"OutgoingTrunk":"442","MSRN":"886932428242","callrecTime":"2022-05-25T02:07:13Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:12.7350000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
    {"RecordType":"MO","SystemIdentity":"d0","FileNum":"559","SwitchNum":"US","CallingNum":"456757102","CallingIMSI":"466920401237309","CalledNum":"345617823","CalledIMSI":"466923000886460","DateS":"20220524","TimeType":1,"CallPeriod":696,"ServiceType":"V","Transfer":1,"OutgoingTrunk":"419","MSRN":"886932429155","callrecTime":"2022-05-25T02:07:22Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:21.9190000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
    

Considerazioni sull'uso della funzionalità di replica geografica di Hub eventi

Hub eventi di Azure recentemente lanciato il Funzionalità replica geografica in anteprima pubblica. Questa funzionalità è diversa dalla funzionalità ripristino di emergenza geografico di Hub eventi di Azure.

Quando il tipo di failover è Forzato e la coerenza della replica è Asincrona, flusso Analitica processo non garantisce esattamente una volta l'output in un output Hub eventi di Azure.

Flusso di Azure Analitica, come producer con un output di un hub eventi, potrebbe osservare un ritardo limite nel processo durante la durata del failover e durante la limitazione da parte di Hub eventi nel caso in cui il ritardo di replica tra primario e secondario raggiunga il ritardo massimo configurato.

Azure Stream Analitica, come consumer con Hub eventi come input, potrebbe osservare un ritardo limite nel processo durante la durata del failover e potrebbe ignorare i dati o trovare dati duplicati al termine del failover.

A causa di queste avvertenze, è consigliabile riavviare il processo di Analitica Stream con l'ora di inizio appropriata subito dopo il completamento del failover di Hub eventi. Inoltre, poiché la funzionalità di replica geografica di Hub eventi è in anteprima pubblica, non è consigliabile usare questo modello per i processi di stream di produzione Analitica a questo punto. Il comportamento corrente di Stream Analitica migliorerà prima che la funzionalità di replica geografica di Hub eventi sia disponibile a livello generale e possa essere usata nei processi di produzione di Stream Analitica.

Passaggi successivi

Altre informazioni su Analitica di Azure Stream e su come monitorare il processo creato.